Dolovanie znalostí z textových dát použitím metód umelej inteligencie

Abstract
Práca sa zaoberá problémom dolovania znalostí z textových dát, ktorý je stále aktuálnejší vzhľadom na exponenciálny rast množstva uložených dát v elektronickej podobe, kde 80% týchto dát je v textovej podobe. Práca skúma súčasné metódy, ich možné zvýšenie presnosti vďaka optimalizačným metódam, ako aj nové metódy riešenia problému porozumenia textu s modelovaním kognitívneho správanie človeka pri spracovaní textových dát. Problém súčasných metód, ktorým je závislosť na konkrétnom jazyku textu, ako aj ich presnosť, ktorá nedosahuje úspešnosti človeka, rieši prostredníctvom troch smerov: tradičnými metódami a ich optimalizáciami, prístupom Big Data a abstrahovaním prostredníctvom minimalizácie jazykovo závislých častí, a prístupom hlbokého učenia. Hlavným cieľom dizertačnej práce bolo navrhnúť metódu pre strojové porozumenie neštruktúrovaným textovým dátam. Metóda bola experimentálne overená na probléme extrakcie jednoduchých informácií prostredníctvom klasifikácie textových dát v 5 jazykoch – čeština, angličtina, nemčina, španielčina a čínština, čím bola dokázaná možnosť aplikácie na rôzne rodiny jazykov. Pri validácií na databáze hodnotení Yelp bola dosiahnutá presnosť vyššia o 0,5% než poskytujú súčasné metódy.
This work deals with the problem of text mining which is becoming more popular due to exponential growth of the data in electronic form. The work explores contemporary methods and their improvement using optimization methods, as well as the problem of text data understanding in general. The work addresses the problem in three ways: using traditional methods and their optimizations, using Big Data in train phase and abstraction through the minimization of language-dependent parts, and introduction of the new method based on the deep learning which is closer to how human reads and understands text data. The main aim of the dissertation was to propose a method for machine understanding of unstructured text data. The method was experimentally verified by classification of text data on 5 different languages – Czech, English, German, Spanish and Chinese. This demonstrates possible application to different languages families. Validation on the Yelp evaluation database achieve accuracy higher by 0.5% than current methods.
Description
Citation
POVODA, L. Dolovanie znalostí z textových dát použitím metód umelej inteligencie [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2018.
Document type
Document version
Date of access to the full text
Language of document
sk
Study field
Teleinformatika
Comittee
prof. Ing. Zdeněk Smékal, CSc. (předseda) prof. Ing. Ivan Baroňák, CSc. (člen) prof. Ing. Boris Šimák, CSc. (člen) prof. Ing. Miroslav Vozňák, Ph.D. (člen) doc. Ing. Kamil Říha, Ph.D. (člen) Ing. Jiří Mekyska, Ph.D. (člen) Univ. Prof. Dr. Peter Brezany - oponent (člen) prof. Ing. Jana Tučková, CSc. - oponent (člen)
Date of acceptance
2018-12-14
Defence
Oba oponenti doporučují práci k obhajobě. Cíle disertační práce byly splněny, za získanými výsledky se skrývá velmi mnoho experimentální práce. Hlavní části práce byly publikovány v prestižních zahraničních časopisech. Disertant odpověděl správně na všechny otázky členů komise.
Result of defence
práce byla úspěšně obhájena
Document licence
Standardní licenční smlouva - přístup k plnému textu bez omezení
DOI
Collections
Citace PRO