Klasifikace webových stránek
Web Page Classification
Author
Advisor
Bartík, VladimírReferee
Burget, RadekGrade
AAltmetrics
Metadata
Show full item recordAbstract
Práce se zabývá problematikou automatické klasifikace webových stránek s využitím asociačního klasifikátoru. Je představena klasifikace, jakožto jeden z oborů dolování znalostí z databází; zvláštní prostor je věnován klasifikaci textových dat. Jsou diskutovány různé metody klasifikace textových dokumentů se zdůrazněním výhod klasifikátorů využívajících pro rozhodování asociační pravidla. Cílem práce je pokusit se přizpůsobit vybranou klasifikační metodu pro relační data a navrhnout systém pro klasifikaci webových stránek podle vizuálních vlastností - rozložení jednotlivých oblastí na stránce, nikoliv podle čistého textového obsahu. K tomu je využitý asociační klasifikátor ARC-BC kombinující výhody známých klasifikačních metod. This paper presents problem of automatic webpages classification using association rules based classifier. Classification problem is presented, as a one of datamining technique, in context of mining knowledges from text data. There are many text document classification methods presented with highlighting benefits of classification methods using association rules. The main goal of work is adjusting selected classification method for relation data and design draft of webpages classifier, which classifies pages with the aid of visual properties - independent section layout on the web page, not (only) by textual data. There is also ARC-BC classification method presented as a selected method and as one of intriguing classificators, that derives accuracy and understandableness benefits of all other methods.
Keywords
klasifikace, klasifikátor, Web, dolování znalostí, asociační pravidlo, přesnost, data, diskretizace, kategorie, struktura, atribut, podpora, spolehlivost, text, interval, classification, classificator, Web, datamining, association rule, precission, data, discretization, category, structure, attribute, support, confidence, text, intervalLanguage
čeština (Czech)Study brunch
Informační systémyComposition of Committee
Date of defence
2008-06-17Process of defence
Result of the defence
práce byla úspěšně obhájenaPersistent identifier
http://hdl.handle.net/11012/53234Source
KOLÁŘ, R. Klasifikace webových stránek [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2008.Collections
- 2008 [190]