Dolovanie znalostí z textových dát použitím metód umelej inteligencie

Povoda, Lukáš

Dolovanie znalostí z textových dát použitím metód umelej inteligencie

Mark

P

Publisher

Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií

Abstract

Práca sa zaoberá problémom dolovania znalostí z textových dát, ktorý je stále aktuálnejší vzhľadom na exponenciálny rast množstva uložených dát v elektronickej podobe, kde 80% týchto dát je v textovej podobe. Práca skúma súčasné metódy, ich možné zvýšenie presnosti vďaka optimalizačným metódam, ako aj nové metódy riešenia problému porozumenia textu s modelovaním kognitívneho správanie človeka pri spracovaní textových dát. Problém súčasných metód, ktorým je závislosť na konkrétnom jazyku textu, ako aj ich presnosť, ktorá nedosahuje úspešnosti človeka, rieši prostredníctvom troch smerov: tradičnými metódami a ich optimalizáciami, prístupom Big Data a abstrahovaním prostredníctvom minimalizácie jazykovo závislých častí, a prístupom hlbokého učenia. Hlavným cieľom dizertačnej práce bolo navrhnúť metódu pre strojové porozumenie neštruktúrovaným textovým dátam. Metóda bola experimentálne overená na probléme extrakcie jednoduchých informácií prostredníctvom klasifikácie textových dát v 5 jazykoch – čeština, angličtina, nemčina, španielčina a čínština, čím bola dokázaná možnosť aplikácie na rôzne rodiny jazykov. Pri validácií na databáze hodnotení Yelp bola dosiahnutá presnosť vyššia o 0,5% než poskytujú súčasné metódy.
This work deals with the problem of text mining which is becoming more popular due to exponential growth of the data in electronic form. The work explores contemporary methods and their improvement using optimization methods, as well as the problem of text data understanding in general. The work addresses the problem in three ways: using traditional methods and their optimizations, using Big Data in train phase and abstraction through the minimization of language-dependent parts, and introduction of the new method based on the deep learning which is closer to how human reads and understands text data. The main aim of the dissertation was to propose a method for machine understanding of unstructured text data. The method was experimentally verified by classification of text data on 5 different languages – Czech, English, German, Spanish and Chinese. This demonstrates possible application to different languages families. Validation on the Yelp evaluation database achieve accuracy higher by 0.5% than current methods.

Keywords

Analýza sentimentu, dolovanie znalostí, hlboké učenie, klasifikácia emócií, klasifikácia textu, optimalizácia genetickým programovaním, spracovanie prirodzeného jazyka, textové dáta, umelá inteligencia, Artificial intelligence, data mining, emotion classification, genetic programming optimization, natural language processing, sentiment analysis, text data, text mining

Citation

POVODA, L. Dolovanie znalostí z textových dát použitím metód umelej inteligencie [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2018.

Language of document

sk

Study field

Teleinformatika

Comittee

prof. Ing. Zdeněk Smékal, CSc. (předseda) prof. Ing. Ivan Baroňák, CSc. (člen) prof. Ing. Boris Šimák, CSc. (člen) prof. Ing. Miroslav Vozňák, Ph.D. (člen) doc. Ing. Kamil Říha, Ph.D. (člen) Ing. Jiří Mekyska, Ph.D. (člen) Univ. Prof. Dr. Peter Brezany - oponent (člen) prof. Ing. Jana Tučková, CSc. - oponent (člen)

Date of acceptance

2018-12-14

Defence

Oba oponenti doporučují práci k obhajobě. Cíle disertační práce byly splněny, za získanými výsledky se skrývá velmi mnoho experimentální práce. Hlavní části práce byly publikovány v prestižních zahraničních časopisech. Disertant odpověděl správně na všechny otázky členů komise.

Result of defence

práce byla úspěšně obhájena

Document licence

Standardní licenční smlouva - přístup k plnému textu bez omezení

URI

http://hdl.handle.net/11012/137278

Collections

2018

Citace PRO

Full item page