Metody strojového učení ve zpracování přirozeného jazyka
Machine-Learning Methods in Natural Language Processing
Auteur
Advisor
Otrusina, LubomírReferee
Mrnuštík, MichalGrade
CAltmetrics
Metadata
Afficher la notice complèteRésumé
Práce se zabývá automatickým značkováním českého jazyka za pomocí existujících implementací, využívajících model Conditional Random Fields a algoritmy L-BFGS a SDG. Jsou popsány základní pravidla značkování a problémy, se kterými se tento obor potýká v případě zpracování českého jazyka. Čtenáři jsou vysvětleny principy použitých algoritmů a modelů, které jsou implementovány v programech CRF++ a CRFSuite. Práce se poté zaměřuje na vlastní testování úspěšnosti na českém korpusu a snaží se nalézt nejvhodnější hodnoty parametrů při využití všech rysů. Při nalezení rozumného kompromisu mezi časem a přesností se poté snaží tuto hodnotu ještě zpřesnit za pomoci analýzy přínosu jednotlivých rysů a možností jejich vynechání. Firstly, basic rules of tagging of the Czech language are described as well as problems connected to this field. Thereafter the focus of the thesis is put on the success rate of testing on the Czech corpus and at the same time trying to find the most suitable parameter values for using the features. After reaching a reasonable compromise between duration and accuracy, the value is then attempted to be improved using analysis of separate features and their eventual omission.
Keywords
strojové učení, značkování textu, Conditional Random Fields, L-BFGS, Machine Learning, POS tagging, Conditional Random Fields, L-BFGSLanguage
čeština (Czech)Study brunch
Informační technologieComposition of Committee
prof. Ing. Jan M. Honzík, CSc. (předseda) prof. Ing. Tomáš Vojnar, Ph.D. (místopředseda) Ing. Jaroslav Ráb (člen) Ing. Josef Strnadel, Ph.D. (člen) doc. Ing. František Zbořil, Ph.D. (člen)Date of defence
2011-06-16Process of defence
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se pak seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm " C ". Otázky u obhajoby: Jaká je baseline pro experimenty (úspěšnost taggeru, který přiřadí každému slovu jeho nejčastější značku), při použití stejných pozic značky jako v experimentech? Je dosažená úspěšnost uváděna pro evaluční sadu určenou v PDT, nebo byla evaluační data vybrána jinak?Result of the defence
práce byla úspěšně obhájenaSource
VANTUCH, M. Metody strojového učení ve zpracování přirozeného jazyka [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2011.Collections
- 2011 [322]