Algoritmy pro shlukování textových dat

Loading...
Thumbnail Image
Date
ORCID
Mark
A
Journal Title
Journal ISSN
Volume Title
Publisher
Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií
Abstract
Tato diplomová práce se zabývá problematikou dolování textových dat. Je zde popsána teorie potřebná ke shlukování textových dokumentů a také algoritmy, které se při shlukování využívají. Podle této teorie je pak vytvořena aplikace pro shlukování textových dat. Aplikace je vytvořena v programovacím jazyku Java a obsahuje tři metody používané při shlukování. Uživatel si tak sám může vybrat metodu, podle které chce kolekci dokumentů shlukovat. Implementované metody jsou K medoids, BiSec K medoids a SOM (self organization map). Součástí aplikace je také vytvoření validační množiny, pomocí které jsou algoritmy testovány. V závěru jsou pak algoritmy porovnány podle dosažených výsledků.
The thesis deals with text mining. It describes the theory of text document clustering as well as algorithms used for clustering. This theory serves as a basis for developing an application for clustering text data. The application is developed in Java programming language and contains three methods used for clustering. The user can choose which method will be used for clustering the collection of documents. The implemented methods are K medoids, BiSec K medoids, and SOM (self-organization maps). The application also includes a validation set, which was specially created for the diploma thesis and it is used for testing the algorithms. Finally, the algorithms are compared according to obtained results.
Description
Citation
SEDLÁČEK, J. Algoritmy pro shlukování textových dat [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2011.
Document type
Document version
Date of access to the full text
Language of document
cs
Study field
Telekomunikační a informační technika
Comittee
prof. Ing. Zdeněk Smékal, CSc. (předseda) Ing. Robert Vích, DrSc. (místopředseda) doc. Ing. Otto Dostál, CSc. (člen) Ing. Jaromír Hrad, Ph.D. (člen) Ing. Jan Karásek, Ph.D. (člen) Ing. Hicham Atassi, Ph.D. (člen) Ing. Peter Stančík (člen)
Date of acceptance
2011-06-08
Defence
Co je to ontologická báze a k čemu se v oblasti zpracování obrazu používá? - Na základě ontologie se vytváří významové informace. Objasnete význam Davies-Bouldin indexu a jak se používá pro analýzu kvality clusterování. - Čím menší DB tím lepší výsledek shlukování. Jakých parametrů jste využíval při shlukové analýze? Popište Kohonenovu síť.
Result of defence
práce byla úspěšně obhájena
Document licence
Standardní licenční smlouva - přístup k plnému textu bez omezení
DOI
Collections
Citace PRO