Rozpoznávání emocí v česky psaných textech

Loading...
Thumbnail Image
Date
ORCID
Mark
A
Journal Title
Journal ISSN
Volume Title
Publisher
Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií
Abstract
Díky rozvoji informačních a komunikačních technologií v posledních letech došlo k velkému nárůstu množství informací, které denně vznikají ve formě elektronických dokumentů. Třídění a zpracování informací se stalo pro člověka velmi obtížné, a proto vzrůstá obliba systémů automatického dolování znalostí z textu. Zajímavou podoblastí jsou systémy pro analýzu sentimentu a automatického rozpoznání emocí v textech, které mají potencionálně široké uplatnění. V rámci této práce byl navržen a implementován systém využívající technik dolování znalostí z textu za účelem rozpoznávání emocí v česky psaných textech a bylo provedeno zhodnocení jeho úspěšnosti. Protože je systém postaven převážně na metodě strojového učení, byla navrhnuta a vytvořena trénovací množina, která byla posléze použita k vytvoření modelu klasifikátoru pomocí algoritmu podpůrných vektorů (SVM). Pro potřeby zpřesnění výsledků klasifikace textových dokumentů do předem definovaných emočních tříd, jsou do systému integrovány další prvky, jako např.: lexikální databáze, lemmatizátor a odvozený slovník klíčových slov. Součástí práce je také zhodnocení několika přístupů ke klasifikaci s různými modifikacemi navrženého systému.
With advances in information and communication technologies over the past few years, the amount of information stored in the form of electronic text documents has been rapidly growing. Since the human abilities to effectively process and analyze large amounts of information are limited, there is an increasing demand for tools enabling to automatically analyze these documents and benefit from their emotional content. These kinds of systems have extensive applications. The purpose of this work is to design and implement a system for identifying expression of emotions in Czech texts. The proposed system is based mainly on machine learning methods and therefore design and creation of a training set is described as well. The training set is eventually utilized to create a model of classifier using the SVM. For the purpose of improving classification results, additional components were integrated into the system, such as lexical database, lemmatizer or derived keyword dictionary. The thesis also presents results of text documents classification into defined emotion classes and evaluates various approaches to categorization.
Description
Citation
ČERVENEC, R. Rozpoznávání emocí v česky psaných textech [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2011.
Document type
Document version
Date of access to the full text
Language of document
cs
Study field
Telekomunikační a informační technika
Comittee
prof. Ing. Zdeněk Smékal, CSc. (předseda) Ing. Robert Vích, DrSc. (místopředseda) doc. Ing. Otto Dostál, CSc. (člen) Ing. Jaromír Hrad, Ph.D. (člen) Ing. Jan Karásek, Ph.D. (člen) Ing. Hicham Atassi, Ph.D. (člen) Ing. Peter Stančík (člen)
Date of acceptance
2011-06-08
Defence
Vysvětlete platnost vztahu (4.2). - Metodika určování důležitosti dokumentu prostřednictvím vektorového modelu. Domníváte se, že lze úspěšně identifikovat a klasifikovat ironii? Jakou strukturu a vlastnosti musí mít hodnoticí systém? - Klasifikace by byla možná např. pomocí databáze vzorů pro ironické texty. F-skóre pro jednotlivé třídy dosahuje v průměru asi 87 % úspěšnosti klasifikace. V čem vidíte cestu zvýšení úspěšnosti klasifikace? Lze využít i jiné klasifikátory než metodu SVM? - Je možné použít lepší trénovací množinu, sofistikovanější lemmatizaci, SVM s jinými jádry.
Result of defence
práce byla úspěšně obhájena
Document licence
Standardní licenční smlouva - přístup k plnému textu bez omezení
DOI
Collections
Citace PRO