• čeština
    • English
    • русский
  • English 
    • čeština
    • English
    • русский
  • Login
View Item 
  •   Repository Home
  • Závěrečné práce
  • diplomové práce
  • Fakulta informačních technologií
  • 2018
  • View Item
  •   Repository Home
  • Závěrečné práce
  • diplomové práce
  • Fakulta informačních technologií
  • 2018
  • View Item
JavaScript is disabled for your browser. Some features of this site may not work without it.

Analýza a získávání informací ze souboru dokumentů spojených do jednoho celku

Analysis and Data Extraction from a Set of Documents Merged Together

Thumbnail
View/Open
final-thesis.pdf (7.053Mb)
Posudek-Oponent prace-20912_o.pdf (89.50Kb)
Posudek-Vedouci prace-20912_v.pdf (86.95Kb)
review_114762.html (1.488Kb)
Author
Jarolím, Jordán
Advisor
Kreslíková, Jitka
Referee
Bartík, Vladimír
Grade
C
Altmetrics
Metadata
Show full item record
Abstract
Tato práce se zabývá získáváním relevantních informací z dokumentů, automatizovaným rozdělováním vícero dokumentů spojených do jednoho celku a tvorbou nástroje, který umožňuje získání relevantních informací z dokumentů a jejich automatizované rozdělení. Jsou diskutovány především metody pro získání textových dat ze skenovaných dokumentů, rozpoznávání pojmenovaných entit, shlukování dokumentů, jejich podpůrné algoritmy a jsou popisovány metriky sloužící pro automatizované rozdělování dokumentů. Dále je vysvětlen algoritmus implementovaného prototypu daného systému, jsou popsány použité nástroje a techniky a je evaluována jeho úspěšnost. Nakonec jsou diskutována možná rozšíření a budoucí rozvoj této práce.
 
This thesis deals with mining of relevant information from documents and automatic splitting of multiple documents merged together. Moreover, it describes the design and implementation of software for data mining from documents and for automatic splitting of multiple documents. Methods for acquiring textual data from scanned documents, named entity recognition, document clustering, their supportive algorithms and metrics for automatic splitting of documents are described in this thesis. Furthermore, an algorithm of implemented software is explained and tools and techniques used by this software are described. Lastly, the success rate of the implemented software is evaluated. In conclusion, possible extensions and further development of this thesis are discussed at the end.
 
Keywords
Dokument, spojené dokumenty, rozdělování, automatické rozdělování dokumentů, získávání informací, rozpoznávání pojmenovaných entit, RAKE, SIFT points, histogram, K-means, metrické prostory, vektorové prostory, euklidova vzdálenost, cosinova podobnost, shlukování dokumentů, Document, merged documents, splitting, automatic document splitting, data mining, named entity recognition, RAKE, SIFT points, histogram, K-means, metric spaces, vector spaces, euclid distance, cosine similarity, document clustering
Language
čeština (Czech)
Study brunch
Bezpečnost informačních technologií
Composition of Committee
doc. Dr. Ing. Petr Hanáček (předseda) prof. Ing. Martin Drahanský, Ph.D. (místopředseda) doc. Ing. Vladimír Drábek, CSc. (člen) Mgr. Lukáš Holík, Ph.D. (člen) Ing. Vladimír Veselý, Ph.D. (člen) doc. Ing. Václav Zeman, Ph.D. (člen)
Date of defence
2018-06-21
Process of defence
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm " C ". Otázky u obhajoby: Uvažoval jste o využití tzv. stemmingu při předzpracování textu? Mělo by to pro vaši úlohu význam? Popište, jakým způsobem byl vytvořen rozhodovací strom na str. 34.
Result of the defence
práce byla úspěšně obhájena
Persistent identifier
http://hdl.handle.net/11012/84912
Source
JAROLÍM, J. Analýza a získávání informací ze souboru dokumentů spojených do jednoho celku [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2018.
Collections
  • 2018 [161]
Citace PRO

Portal of libraries | Central library on Facebook
DSpace software copyright © 2002-2015  DuraSpace
Contact Us | Send Feedback | Theme by @mire NV
 

 

Browse

All of repositoryCommunities & CollectionsBy Issue DateAuthorsTitlesSubjectsThis CollectionBy Issue DateAuthorsTitlesSubjects

My Account

LoginRegister

Statistics

View Usage Statistics

Portal of libraries | Central library on Facebook
DSpace software copyright © 2002-2015  DuraSpace
Contact Us | Send Feedback | Theme by @mire NV