Překlad z češtiny do angličtiny

Petrželka, Jiří

Překlad z češtiny do angličtiny

Mark

B

Publisher

Vysoké učení technické v Brně. Fakulta informačních technologií

Abstract

Tato diplomová práce popisuje principy statistického strojového překladu a demonstruje, jak sestavit systém pro statistický strojový překlad Moses. V přípravné fázi jsou prozkoumány volně dostupné bilingvní česko-anglické korpusy. Empirická analýza časové náročnosti vícevláknových nástrojů pro zarovnání slov demonstruje, že MGIZA++ může dosáhnout až pětinásobného zrychlení, zatímco PGIZA++ až osminásobného zrychlení (v porovnání s GIZA++). Jsou otestovány tři způsoby morfologického pre-processingu českých trénovacích dat za použití jednoduchých nefaktorových modelů. Zatímco jednoduchá lemmatizace může snížit BLEU, sofistikovanější přístupy většinou BLEU zvyšují. Positivní efekty morfologického pre-processingu se vytrácejí s růstem velikosti korpusu. Vztah mezi dalšími charakteristikami korpusu (velikost, žánr, další data) a výsledným BLEU je empiricky měřen. Koncový systém je natrénován na korpusu CzEng 0.9 a vyhodnocen na testovacím vzorku z workshopu WMT 2010.
This Master's thesis describes the principles of statistical machine translation and demonstrates how to assemble the Moses statistical machine translation system. In the preparation step, a research on freely available bilingual Czech-English corpora is done. An empirical analysis of time requirements of multithreaded word alignment tools demonstrates that MGIZA++ can achieve a five-fold speed-up, while PGIZA++ can reach an eight-fold speed-up (compared to GIZA++).Three scenarios of morphological pre-processing of Czech training data are tested, using simple unfactored models. While pure lemmatization can aggravate the BLEU, more sophisticated approaches usually raise BLEU. The positive effect of morphological pre-processing diminishes as corpus size rises. The relation between other corpora characteristics (size, genre, extra data) and the resulting BLEU are empirically gauged. A final system is trained on the CzEng 0.9 corpus and evaluated on the testing set from WMT 2010 workshop.

Keywords

statistický strojový překlad, zpracování přirozeného jazyka, překladový model, jazykový model, dekodér, zarovnání slov, GIZA++, MGIZA++, PGIZA++, SRILM, hunalign, plain2snt, snt2cooc, mkcls, BLEU, bilingvní korpus, Kačenka, Acquis Communautaire, CzEng, OpenSubtitles, skrytý Markovův model, HMM, viterbi, IBM model, Qin Gao, ÚFAL, EuroMatrix, Moses, česká morfologie, lemmatizace, Pražský závislostní korpus, PDT, Libma, BLEU, WMT, statistical machine translation, natural language processing, translation model, language model, decoder, word alignment, GIZA++, MGIZA++, PGIZA++, SRILM, hunalign, plain2snt, snt2cooc, mkcls, BLEU, bilingual corpus, Kačenka, Acquis Communautaire, CzEng, OpenSubtitles, hidden Markov model, HMM, viterbi, IBM model, Qin Gao, ÚFAL, IFAL, EuroMatrix, Moses, Czech morphology, lemmatization, Prague Dependency Treebank, PDT, Libma, BLEU, WMT

Citation

PETRŽELKA, J. Překlad z češtiny do angličtiny [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2010.

Language of document

en

Study field

Informační systémy

Comittee

prof. Ing. Miroslav Švéda, CSc. (předseda) doc. Dr. Ing. Dušan Kolář (místopředseda) prof. Ing. Adam Herout, Ph.D. (člen) Doc. Věra Rozinajová, Ph.D. (člen) Prof. Ing. Jiří Šafařík, CSc. (člen) prof. Ing. Tomáš Vojnar, Ph.D. (člen)

Date of acceptance

2010-06-23

Defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se pak seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm B. Otázky u obhajoby: Describe the principles of the Kneser-Ney discounting. Describe what information is stored in the co-occurrence files produced by the snt2cooc tool.

Result of defence

práce byla úspěšně obhájena

Document licence

Standardní licenční smlouva - přístup k plnému textu bez omezení

URI

http://hdl.handle.net/11012/54268

Collections

2010

Citace PRO

Full item page