Určení základního tvaru slova

Loading...
Thumbnail Image
Date
ORCID
Mark
A
Journal Title
Journal ISSN
Volume Title
Publisher
Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií
Abstract
Lemmatizace je důležitou procedurou před dolováním v textu v mnoha aplikacích. Proces lemmatizace je podobný procesu stemmingu, s tím rozdílem, že neurčuje pouze kořen slova, ale snaží se slovo převést pomocí metod Brute Force a Suffix Stripping do jeho základního tvaru. Hlavním cílem této práce je prezentovat metody pro vylepšení algoritmů lemmatizace českého jazyka. Obsahem je vytvoření trénovací množiny dat, kterou lze libovolně použít pro studentské i vědecké práce zabývající se podobnou problematikou.
Lemmatization is an important preprocessing step for many applications of text mining. Lemmatization process is similar to the stemming process, with the difference that determines not only the word stem, but it´s trying to determines the basic form of the word using the methods Brute Force and Suffix Stripping. The main aim of this paper is to present methods for algorithmic improvements Czech lemmatization. The created training set of data are content of this paper and can be freely used for student and academic works dealing with similar problematics.
Description
Citation
ŠANDA, P. Určení základního tvaru slova [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2011.
Document type
Document version
Date of access to the full text
Language of document
cs
Study field
Telekomunikační a informační technika
Comittee
prof. Ing. Zdeněk Smékal, CSc. (předseda) Ing. Robert Vích, DrSc. (místopředseda) doc. Ing. Otto Dostál, CSc. (člen) Ing. Jaromír Hrad, Ph.D. (člen) Ing. Jan Karásek, Ph.D. (člen) Ing. Hicham Atassi, Ph.D. (člen) Ing. Peter Stančík (člen)
Date of acceptance
2011-06-08
Defence
Z formálního pohledu je práce na vysoké úrovni. Vytknul bych ale používání anglictiny v cesky psaném textu („brute force“). V textu uvádíte, že použití hrubé síly je výkonnostne nárocné. Uvedte metody, kterými lze výpocetní cas redukovat. Jaká je casová závislost pro jednotlivé prístupy. Jaký je přínos práce z hlediska programování. - Optimalizace již existujícícho softwaru. Jak probíhá lematizace v případě slova "nejsem".
Result of defence
práce byla úspěšně obhájena
Document licence
Standardní licenční smlouva - přístup k plnému textu bez omezení
DOI
Collections
Citace PRO