• čeština
    • English
    • русский
    • Deutsch
    • français
    • polski
    • українська
  • čeština 
    • čeština
    • English
    • русский
    • Deutsch
    • français
    • polski
    • українська
  • Přihlásit se
Zobrazit záznam 
  •   Domovská stránka repozitáře
  • Závěrečné práce
  • bakalářské práce
  • Fakulta informačních technologií
  • 2011
  • Zobrazit záznam
  •   Domovská stránka repozitáře
  • Závěrečné práce
  • bakalářské práce
  • Fakulta informačních technologií
  • 2011
  • Zobrazit záznam
JavaScript is disabled for your browser. Some features of this site may not work without it.

Metody strojového učení ve zpracování přirozeného jazyka

Machine-Learning Methods in Natural Language Processing

Thumbnail
Zobrazit/otevřít
review_42751.html (1.463Kb)
final-thesis.pdf (1.054Mb)
Autor
Vantuch, Marek
Vedoucí práce
Otrusina, Lubomír
Oponent
Mrnuštík, Michal
Klasifikace
C
Altmetrics
Metadata
Zobrazit celý záznam
Abstrakt
Práce se zabývá automatickým značkováním českého jazyka za pomocí existujících implementací, využívajících model Conditional Random Fields a algoritmy L-BFGS a SDG. Jsou popsány základní pravidla značkování a problémy, se kterými se tento obor potýká v případě zpracování českého jazyka. Čtenáři jsou vysvětleny principy použitých algoritmů a modelů, které jsou implementovány v programech CRF++ a CRFSuite. Práce se poté zaměřuje na vlastní testování úspěšnosti na českém korpusu a snaží se nalézt nejvhodnější hodnoty parametrů při využití všech rysů. Při nalezení rozumného kompromisu mezi časem a přesností se poté snaží tuto hodnotu ještě zpřesnit za pomoci analýzy přínosu jednotlivých rysů a možností jejich vynechání.
 
Firstly, basic rules of tagging of the Czech language are described as well as problems connected to this field. Thereafter the focus of the thesis is put on the success rate of testing on the Czech corpus and at the same time trying to find the most suitable parameter values for using the features. After reaching a reasonable compromise between duration and accuracy, the value is then attempted to be improved using analysis of separate features and their eventual omission.
 
Klíčová slova
strojové učení, značkování textu, Conditional Random Fields, L-BFGS, Machine Learning, POS tagging, Conditional Random Fields, L-BFGS
Jazyk
čeština (Czech)
Studijní obor
Informační technologie
Složení komise
prof. Ing. Jan M. Honzík, CSc. (předseda) prof. Ing. Tomáš Vojnar, Ph.D. (místopředseda) Ing. Jaroslav Ráb (člen) Ing. Josef Strnadel, Ph.D. (člen) doc. Ing. František Zbořil, Ph.D. (člen)
Termín obhajoby
2011-06-16
Průběh obhajoby
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se pak seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm " C ". Otázky u obhajoby: Jaká je baseline pro experimenty (úspěšnost taggeru, který přiřadí každému slovu jeho nejčastější značku), při použití stejných pozic značky jako v experimentech? Je dosažená úspěšnost uváděna pro evaluční sadu určenou v PDT, nebo byla evaluační data vybrána jinak?
Výsledek obhajoby
práce byla úspěšně obhájena
Trvalý odkaz
http://hdl.handle.net/11012/55836
Zdrojový dokument
VANTUCH, M. Metody strojového učení ve zpracování přirozeného jazyka [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2011.
Kolekce
  • 2011 [322]
Citace PRO

Portál knihoven VUT | Ústřední knihovna na Facebooku
DSpace software copyright © 2002-2015  DuraSpace
Kontaktujte nás | Vyjádření názoru | Theme by @mire NV
 

 

Procházet

Vše v repozitářiKomunity a kolekceDle data publikováníAutořiNázvyKlíčová slovaTato kolekceDle data publikováníAutořiNázvyKlíčová slova

Můj účet

Přihlásit seZaregistrovat se

Statistiky

Zobrazit statistiky využívání

Portál knihoven VUT | Ústřední knihovna na Facebooku
DSpace software copyright © 2002-2015  DuraSpace
Kontaktujte nás | Vyjádření názoru | Theme by @mire NV