Analýza sociálních sítí využitím metod rozpoznání vzoru

Križan, Viliam

Analýza sociálních sítí využitím metod rozpoznání vzoru

Mark

A

Publisher

Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií

Abstract

Diplomová práca sa zaoberá rozpoznávaním emócií z textu v sociálnych sieťach. Práca popisuje súčasné metódy extrakcie príznakov, používané lexikóny, korpusy a klasifikátory. Emócie boli rozpoznávané na základe klasifikátoru, netrénovaného na anotovaných dátach z mikroblogovacej siete Twitter. Výhodou použitia služby Twitter, bolo geografické vymedzenie dát, ktoré umožňuje sledovanie zmien emócií populácie v rôznych mestách. Prvým prístupom klasifikácie bolo vytvorenie Baseline algoritmu, ktorý používal jednoduchý lexikón. Pre zlepšenie klasifikácie sme v druhom bode použili komplexnejší SVM klasifikátor. SVM klasifikátory, extrakcie a selekcie príznakov boli použité z dostupnej Python knižnice Scikit. Dáta pre natrénovanie klasifikátoru boli zhromažďované z oblasti USA, a to s pomocou vytvorenej aplikácie. Klasifikátor bol natrénovaný na dátach, označených pri ich zhromažďovaní - bez manuálnej anotácie. Boli použité dve rôzne implantácie SVM klasifikátorov. Výsledné klasifikované emócie, v rôznych mestách a dňoch, boli zobrazené v podobe farebných značiek na mape.
The diploma thesis deals with emotion recognition from texts on social media. The state-of-the-art methods of feature extraction, corpora and classifiers are described in the first section. Emotions are recognized by a classifier trained on annotated data from the microblog network Twitter. The advantage of using Twitter was the possibility to specify data collection to a certain geographical location. Geographical data allows to monitor emotional variations of population, for e.g. in different cities. The first task was to propose and develop a Baseline algorithm which classifies data to emotional classes. The classification accuracy is improved by employing a more complex SVM classifier. SVM classifiers, feature vectorizers and feature selectors are used from the Scikit library, which is written in Python. The data for classifier training were collected from the USA by the own developed mining application. The classifier are trained on data automatically annotated in the collection process. Two implementations of SVM classifiers are used. Final classified emotions that appear in different cities and in different time intervals are displayed as color markers on a map.

Citation

KRIŽAN, V. Analýza sociálních sítí využitím metod rozpoznání vzoru [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2015.

Language of document

en

Study field

Telekomunikační a informační technika

Comittee

prof. Ing. Eva Gescheidtová, CSc. (předseda) doc. Ing. Karol Molnár, Ph.D. (místopředseda) doc. Ing. Jiří Schimmel, Ph.D. (člen) Ing. Michal Lares, Ph.D. (člen) Ing. Hicham Atassi, Ph.D. (člen) doc. Ing. Petr Číka, Ph.D. (člen)

Date of acceptance

2015-06-11

Defence

Objasněte, proč jste ve vaší práci upřednostnil SVM s lineárním jádrem a proč? Objasněte vliv prostředí Twitteru (krátké fráze, výrazné emoční vyjádření a omezený slovník) na výslednou přesnost. Jak se verifikovaly výsledky?

Result of defence

práce byla úspěšně obhájena

Document licence

Standardní licenční smlouva - přístup k plnému textu bez omezení

URI

http://hdl.handle.net/11012/39966

Collections

2015

Citace PRO

Full item page