Rozpoznávání emocí v česky psaných textech

Červenec, Radek

Rozpoznávání emocí v česky psaných textech

Mark

A

Publisher

Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií

Abstract

Díky rozvoji informačních a komunikačních technologií v posledních letech došlo k velkému nárůstu množství informací, které denně vznikají ve formě elektronických dokumentů. Třídění a zpracování informací se stalo pro člověka velmi obtížné, a proto vzrůstá obliba systémů automatického dolování znalostí z textu. Zajímavou podoblastí jsou systémy pro analýzu sentimentu a automatického rozpoznání emocí v textech, které mají potencionálně široké uplatnění. V rámci této práce byl navržen a implementován systém využívající technik dolování znalostí z textu za účelem rozpoznávání emocí v česky psaných textech a bylo provedeno zhodnocení jeho úspěšnosti. Protože je systém postaven převážně na metodě strojového učení, byla navrhnuta a vytvořena trénovací množina, která byla posléze použita k vytvoření modelu klasifikátoru pomocí algoritmu podpůrných vektorů (SVM). Pro potřeby zpřesnění výsledků klasifikace textových dokumentů do předem definovaných emočních tříd, jsou do systému integrovány další prvky, jako např.: lexikální databáze, lemmatizátor a odvozený slovník klíčových slov. Součástí práce je také zhodnocení několika přístupů ke klasifikaci s různými modifikacemi navrženého systému.
With advances in information and communication technologies over the past few years, the amount of information stored in the form of electronic text documents has been rapidly growing. Since the human abilities to effectively process and analyze large amounts of information are limited, there is an increasing demand for tools enabling to automatically analyze these documents and benefit from their emotional content. These kinds of systems have extensive applications. The purpose of this work is to design and implement a system for identifying expression of emotions in Czech texts. The proposed system is based mainly on machine learning methods and therefore design and creation of a training set is described as well. The training set is eventually utilized to create a model of classifier using the SVM. For the purpose of improving classification results, additional components were integrated into the system, such as lexical database, lemmatizer or derived keyword dictionary. The thesis also presents results of text documents classification into defined emotion classes and evaluates various approaches to categorization.

Citation

ČERVENEC, R. Rozpoznávání emocí v česky psaných textech [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2011.

Language of document

cs

Study field

Telekomunikační a informační technika

Comittee

prof. Ing. Zdeněk Smékal, CSc. (předseda) Ing. Robert Vích, DrSc. (místopředseda) doc. Ing. Otto Dostál, CSc. (člen) Ing. Jaromír Hrad, Ph.D. (člen) Ing. Jan Karásek, Ph.D. (člen) Ing. Hicham Atassi, Ph.D. (člen) Ing. Peter Stančík (člen)

Date of acceptance

2011-06-08

Defence

Vysvětlete platnost vztahu (4.2). - Metodika určování důležitosti dokumentu prostřednictvím vektorového modelu. Domníváte se, že lze úspěšně identifikovat a klasifikovat ironii? Jakou strukturu a vlastnosti musí mít hodnoticí systém? - Klasifikace by byla možná např. pomocí databáze vzorů pro ironické texty. F-skóre pro jednotlivé třídy dosahuje v průměru asi 87 % úspěšnosti klasifikace. V čem vidíte cestu zvýšení úspěšnosti klasifikace? Lze využít i jiné klasifikátory než metodu SVM? - Je možné použít lepší trénovací množinu, sofistikovanější lemmatizaci, SVM s jinými jádry.

Result of defence

práce byla úspěšně obhájena

Document licence

Standardní licenční smlouva - přístup k plnému textu bez omezení

URI

http://hdl.handle.net/11012/3781

Collections

2011

Citace PRO

Full item page