Analýza sociálních sítí využitím metod rozpoznání vzoru

Loading...
Thumbnail Image
Date
ORCID
Mark
A
Journal Title
Journal ISSN
Volume Title
Publisher
Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií
Abstract
Diplomová práca sa zaoberá rozpoznávaním emócií z textu v sociálnych sieťach. Práca popisuje súčasné metódy extrakcie príznakov, používané lexikóny, korpusy a klasifikátory. Emócie boli rozpoznávané na základe klasifikátoru, netrénovaného na anotovaných dátach z mikroblogovacej siete Twitter. Výhodou použitia služby Twitter, bolo geografické vymedzenie dát, ktoré umožňuje sledovanie zmien emócií populácie v rôznych mestách. Prvým prístupom klasifikácie bolo vytvorenie Baseline algoritmu, ktorý používal jednoduchý lexikón. Pre zlepšenie klasifikácie sme v druhom bode použili komplexnejší SVM klasifikátor. SVM klasifikátory, extrakcie a selekcie príznakov boli použité z dostupnej Python knižnice Scikit. Dáta pre natrénovanie klasifikátoru boli zhromažďované z oblasti USA, a to s pomocou vytvorenej aplikácie. Klasifikátor bol natrénovaný na dátach, označených pri ich zhromažďovaní - bez manuálnej anotácie. Boli použité dve rôzne implantácie SVM klasifikátorov. Výsledné klasifikované emócie, v rôznych mestách a dňoch, boli zobrazené v podobe farebných značiek na mape.
The diploma thesis deals with emotion recognition from texts on social media. The state-of-the-art methods of feature extraction, corpora and classifiers are described in the first section. Emotions are recognized by a classifier trained on annotated data from the microblog network Twitter. The advantage of using Twitter was the possibility to specify data collection to a certain geographical location. Geographical data allows to monitor emotional variations of population, for e.g. in different cities. The first task was to propose and develop a Baseline algorithm which classifies data to emotional classes. The classification accuracy is improved by employing a more complex SVM classifier. SVM classifiers, feature vectorizers and feature selectors are used from the Scikit library, which is written in Python. The data for classifier training were collected from the USA by the own developed mining application. The classifier are trained on data automatically annotated in the collection process. Two implementations of SVM classifiers are used. Final classified emotions that appear in different cities and in different time intervals are displayed as color markers on a map.
Description
Citation
KRIŽAN, V. Analýza sociálních sítí využitím metod rozpoznání vzoru [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2015.
Document type
Document version
Date of access to the full text
Language of document
en
Study field
Telekomunikační a informační technika
Comittee
prof. Ing. Eva Gescheidtová, CSc. (předseda) doc. Ing. Karol Molnár, Ph.D. (místopředseda) doc. Ing. Jiří Schimmel, Ph.D. (člen) Ing. Michal Lares, Ph.D. (člen) Ing. Hicham Atassi, Ph.D. (člen) doc. Ing. Petr Číka, Ph.D. (člen)
Date of acceptance
2015-06-11
Defence
Objasněte, proč jste ve vaší práci upřednostnil SVM s lineárním jádrem a proč? Objasněte vliv prostředí Twitteru (krátké fráze, výrazné emoční vyjádření a omezený slovník) na výslednou přesnost. Jak se verifikovaly výsledky?
Result of defence
práce byla úspěšně obhájena
Document licence
Standardní licenční smlouva - přístup k plnému textu bez omezení
DOI
Collections
Citace PRO