• čeština
    • English
    • русский
    • Deutsch
    • français
    • polski
    • українська
  • čeština 
    • čeština
    • English
    • русский
    • Deutsch
    • français
    • polski
    • українська
  • Login
View Item 
  •   Repository Home
  • Závěrečné práce
  • diplomové práce
  • Fakulta informačních technologií
  • 2010
  • View Item
  •   Repository Home
  • Závěrečné práce
  • diplomové práce
  • Fakulta informačních technologií
  • 2010
  • View Item
JavaScript is disabled for your browser. Some features of this site may not work without it.

Reprezentace textu a její vliv na kategorizaci

Representation of Text and Its Influence on Categorization

Thumbnail
View/Open
review_34998.html (1.445Kb)
Author
Šabatka, Ondřej
Advisor
Bartík, Vladimír
Referee
Chmelař, Petr
Grade
C
Altmetrics
Metadata
Show full item record
Abstract
Diplomová práce se zabývá strojovým zpracováním textových dat. V teoretické části jsou popsány problémy související se zpracováním přirozeného jazyka a dále jsou představeny různé způsoby předzpracování a reprezentace textu. Práce se také blíže věnuje použití N-gramů jako rysů pro reprezentaci dokumentů a popisuje některé algoritmy sloužící pro jejich extrakci. Další část je pak věnována přehledu používaných klasifikačních metod. V rámci praktické části práce byla navržena a implementována aplikace sloužící pro předzpracování a vytváření různých reprezentací textových dat. V rámci experimentů je pak sledován vliv těchto reprezentací na úspěšnost klasifikačních algoritmů.
 
The thesis deals with machine processing of textual data. In the theoretical part, issues related to natural language processing are described and different ways of pre-processing and representation of text are also introduced. The thesis also focuses on the usage of N-grams as features for document representation and describes some algorithms used for their extraction. The next part includes an outline of classification methods used. In the practical part, an application for pre-processing and creation of different textual data representations is suggested and implemented. Within the experiments made, the influence of these representations on accuracy of classification algorithms is analysed.
 
Keywords
kategorizace, klasifikační metody, dolování z textu, TF-IDF, reprezentace textu, reprezentace textových dokumentů, N-gramy, algoritmus Sufixového stromu, categorization, classification algorithms, text mining, TF-IDF, representation of text, representation of text documents, N-grams, Suffix tree algorithm
Language
čeština (Czech)
Study brunch
Informační systémy
Composition of Committee
doc. Ing. Jaroslav Zendulka, CSc. (předseda) prof. Ing. Tomáš Vojnar, Ph.D. (místopředseda) Ing. Michal Bidlo, Ph.D. (člen) prof. Ing. Adam Herout, Ph.D. (člen) Ing. Ivana Burgetová, Ph.D. (člen) Prof. Ing. Jiří Šafařík, CSc. (člen)
Date of defence
2010-06-24
Process of defence
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se pak seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm C. Otázky u obhajoby: Z práce vyplývá, že využitím složitějších technik (N-gramy, TF-IDF) mírně klesá úspěšnost klasifikace. Dokážete určit z jakého důvodu?
Result of the defence
práce byla úspěšně obhájena
Persistent identifier
http://hdl.handle.net/11012/54406
Source
ŠABATKA, O. Reprezentace textu a její vliv na kategorizaci [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2010.
Collections
  • 2010 [217]
Citace PRO

Portal of libraries | Central library on Facebook
DSpace software copyright © 2002-2015  DuraSpace
Contact Us | Send Feedback | Theme by @mire NV
 

 

Browse

All of repositoryCommunities & CollectionsBy Issue DateAuthorsTitlesSubjectsThis CollectionBy Issue DateAuthorsTitlesSubjects

My Account

LoginRegister

Statistics

View Usage Statistics

Portal of libraries | Central library on Facebook
DSpace software copyright © 2002-2015  DuraSpace
Contact Us | Send Feedback | Theme by @mire NV