Metody shlukování textových dat
Textual Data Clustering Methods
Author
Advisor
Bartík, VladimírReferee
Burgetová, IvanaFinal mark
CAlternative metrics PlumX
http://hdl.handle.net/11012/54203Metadata
Show full item recordAbstract
Shlukování textových dat je jednou z úloh dolování v textech. Slouží k rozdělení dokumentů do různých kategorií na základě jejich podobnosti, což nám umožňuje snadnější vyhledávání v takto rozdělených dokumentech. V práci jsou popsány současné metody sloužící k shlukování textových dokumentů, jež se využívají. Z těchto metod je vybrán algoritmus Simultaneous keyword identification and clustering of text documents (SKWIC), který by měl při shlukování dosahovat lepších výsledků, než standardní algoritmy jako např. k-means. Je navrhnuta a implementována aplikace řešící tento algoritmus. Na závěr je provedeno srovnání SKWIC se standardním k-means. Clustering of text data is one of tasks of text mining. It divides documents into the different categories that are based on their similarities. These categories help to easily search in the documents. This thesis describes the current methods that are used for the text document clustering. From these methods we chose Simultaneous keyword identification and clustering of text documents (SKWIC). It should achieve better results than the standard clustering algorithms such as k-means. There is designed and implemented an application for this algorithm. In the end, we compare SKWIC with a k-means algorithm.
Source
MILOŠ, R. Metody shlukování textových dat [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2011.Collections
- 2011 [191]