• čeština
    • English
    • русский
    • Deutsch
    • français
    • polski
    • українська
  • Deutsch 
    • čeština
    • English
    • русский
    • Deutsch
    • français
    • polski
    • українська
  • Einloggen
Dokumentanzeige 
  •   DSpace Startseite
  • Závěrečné práce
  • bakalářské práce
  • Fakulta informačních technologií
  • 2011
  • Dokumentanzeige
  •   DSpace Startseite
  • Závěrečné práce
  • bakalářské práce
  • Fakulta informačních technologií
  • 2011
  • Dokumentanzeige
JavaScript is disabled for your browser. Some features of this site may not work without it.

Metody strojového učení ve zpracování přirozeného jazyka

Machine-Learning Methods in Natural Language Processing

Thumbnail
Öffnen
review_42751.html (1.463Kb)
final-thesis.pdf (1.054Mb)
Autor
Vantuch, Marek
Advisor
Otrusina, Lubomír
Referee
Mrnuštík, Michal
Grade
C
Altmetrics
Metadata
Zur Langanzeige
Zusammenfassung
Práce se zabývá automatickým značkováním českého jazyka za pomocí existujících implementací, využívajících model Conditional Random Fields a algoritmy L-BFGS a SDG. Jsou popsány základní pravidla značkování a problémy, se kterými se tento obor potýká v případě zpracování českého jazyka. Čtenáři jsou vysvětleny principy použitých algoritmů a modelů, které jsou implementovány v programech CRF++ a CRFSuite. Práce se poté zaměřuje na vlastní testování úspěšnosti na českém korpusu a snaží se nalézt nejvhodnější hodnoty parametrů při využití všech rysů. Při nalezení rozumného kompromisu mezi časem a přesností se poté snaží tuto hodnotu ještě zpřesnit za pomoci analýzy přínosu jednotlivých rysů a možností jejich vynechání.
 
Firstly, basic rules of tagging of the Czech language are described as well as problems connected to this field. Thereafter the focus of the thesis is put on the success rate of testing on the Czech corpus and at the same time trying to find the most suitable parameter values for using the features. After reaching a reasonable compromise between duration and accuracy, the value is then attempted to be improved using analysis of separate features and their eventual omission.
 
Keywords
strojové učení, značkování textu, Conditional Random Fields, L-BFGS, Machine Learning, POS tagging, Conditional Random Fields, L-BFGS
Language
čeština (Czech)
Study brunch
Informační technologie
Composition of Committee
prof. Ing. Jan M. Honzík, CSc. (předseda) prof. Ing. Tomáš Vojnar, Ph.D. (místopředseda) Ing. Jaroslav Ráb (člen) Ing. Josef Strnadel, Ph.D. (člen) doc. Ing. František Zbořil, Ph.D. (člen)
Date of defence
2011-06-16
Process of defence
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se pak seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm " C ". Otázky u obhajoby: Jaká je baseline pro experimenty (úspěšnost taggeru, který přiřadí každému slovu jeho nejčastější značku), při použití stejných pozic značky jako v experimentech? Je dosažená úspěšnost uváděna pro evaluční sadu určenou v PDT, nebo byla evaluační data vybrána jinak?
Result of the defence
práce byla úspěšně obhájena
URI
http://hdl.handle.net/11012/55836
Source
VANTUCH, M. Metody strojového učení ve zpracování přirozeného jazyka [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2011.
Collections
  • 2011 [322]
Citace PRO

Portal of libraries | Central library on Facebook
DSpace software copyright © 2002-2015  DuraSpace
Kontakt | Feedback abschicken | Theme by @mire NV
 

 

Stöbern

Gesamter BestandBereiche & SammlungenErscheinungsdatumAutorenTitelnSchlagwortenDiese SammlungErscheinungsdatumAutorenTitelnSchlagworten

Mein Benutzerkonto

EinloggenRegistrieren

Statistik

Benutzungsstatistik

Portal of libraries | Central library on Facebook
DSpace software copyright © 2002-2015  DuraSpace
Kontakt | Feedback abschicken | Theme by @mire NV