Automatizovaná extrakce informací z emailů

but.committeedoc. RNDr. Pavel Smrž, Ph.D. (předseda) doc. Dr. Ing. Otto Fučík (místopředseda) doc. Mgr. Lukáš Holík, Ph.D. (člen) Ing. Igor Szőke, Ph.D. (člen) Ing. Vladimír Veselý, Ph.D. (člen)cs
but.defenceStudent nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm B. Otázky u obhajoby: Na straně 20 píšete, že spolehlivost 51.9% při zpracování emailů je přijatelná. Na jakém základě jste toto hodnocení udělal a kde je hranice přijatelnosti a jak s určí? Můžete konkrétněji vysvětlit vaše konstatování v sekci 4.7, že "Byť webovou aplikáciou, znamená dokázať zvládnuť niekoľko požiadavkov v jeden moment."? Bude Vaše práce použita v praxi?cs
but.jazykčeština (Czech)
but.programInformační technologiecs
but.resultpráce byla úspěšně obhájenacs
dc.contributor.advisorVídeňský, Františekcs
dc.contributor.authorKanda, Rastislavcs
dc.contributor.refereeZbořil, Františekcs
dc.date.accessioned2019-07-08T15:56:21Z
dc.date.available2019-07-08T15:56:21Z
dc.date.created2019cs
dc.description.abstractTáto práca má za úlohu oboznámiť sa s možnosťami extrakcie informácií z textu. Na základe získaných poznatkov navrhnúť a implementovať systém, ktorý bude schopný získať potrebné informácie z emailových správ. Navrhnutý systém má pomôcť firme Kiwi.com s.r.o. v spracovávaní emailových správ od dopravných spoločností. V momentálnej sitácii je možné tieto emailové správy spracovávať automaticky. Avšak na to aby mohli byť automaticky spracované, je nutné manuálne vytvoriť šablónu pre extrakciu dát zo správy. Zmenou v tomto prístupe je algoritmus ROBULA+, ktorý dokáže po zadaní lokátoru XPath, vygenerovať robustnejší XPath lokátor, ktorý bude odolnejší voči zmenám štruktúry v zdrojovom kóde HTML. Algoritmus ROBULA+ je použitý ako centrálny prvok pri automatizácii vytvárania šablón pre spracovávanie emailových správ. Úspešnosť implementovaného systému je možné označiť za dostačujúcu (približne 75%), čo znamená že v troch zo štyroch správach je možné úspešne získať referenciu k vytvorenej rezervácii.cs
dc.description.abstractThe purpose of this thesis is to familiarize oneself with methodology of information extraction from text. On the basis of acquired knowledge, propose a design and implement a system, which should be capable of gathering information from email messages. Proposed system should help Kiwi.com s.r.o. with processing of incoming email messages from travel companies. In current situation it is possible to process those email messages automatically. However, to process those messages automatically, it is necessary to manually create a template suitable for extraction. Possible alteration could be algorithm ROBULA+, which can generate more robust XPath locator from given XPath locator. These locators should be more resistant to changes in the HTML structure. ROBULA+ algorithm is a central point of automated creation of templates suitable for parsing email messages. Implemented system can be qualified with satisfactory successivity (approximately 75%). This means that system is able to find reference to created reservation in three out of four cases.en
dc.description.markBcs
dc.identifier.citationKANDA, R. Automatizovaná extrakce informací z emailů [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2019.cs
dc.identifier.other122122cs
dc.identifier.urihttp://hdl.handle.net/11012/180238
dc.language.isocscs
dc.publisherVysoké učení technické v Brně. Fakulta informačních technologiícs
dc.rightsStandardní licenční smlouva - přístup k plnému textu bez omezenícs
dc.subjectextrakcia informáciícs
dc.subjectemailcs
dc.subjectROBULA+cs
dc.subjectautomatizáciacs
dc.subjectREST APIcs
dc.subjectXPathcs
dc.subjectPythoncs
dc.subjectinformation extractionen
dc.subjectemailen
dc.subjectROBULA+en
dc.subjectautomationen
dc.subjectREST APIen
dc.subjectXPathen
dc.subjectPythonen
dc.titleAutomatizovaná extrakce informací z emailůcs
dc.title.alternativeAutomated Extraction of Information from Emailsen
dc.typeTextcs
dc.type.driverbachelorThesisen
dc.type.evskpbakalářská prácecs
dcterms.dateAccepted2019-06-10cs
dcterms.modified2019-07-08-13:31:29cs
eprints.affiliatedInstitution.facultyFakulta informačních technologiícs
sync.item.dbid122122en
sync.item.dbtypeZPen
sync.item.insts2021.11.12 22:00:58en
sync.item.modts2021.11.12 21:39:14en
thesis.disciplineInformační technologiecs
thesis.grantorVysoké učení technické v Brně. Fakulta informačních technologií. Ústav inteligentních systémůcs
thesis.levelBakalářskýcs
thesis.nameBc.cs
Files
Original bundle
Now showing 1 - 4 of 4
Loading...
Thumbnail Image
Name:
final-thesis.pdf
Size:
1.03 MB
Format:
Adobe Portable Document Format
Description:
final-thesis.pdf
Loading...
Thumbnail Image
Name:
Posudek-Oponent prace-22028_o.pdf
Size:
88.85 KB
Format:
Adobe Portable Document Format
Description:
Posudek-Oponent prace-22028_o.pdf
Loading...
Thumbnail Image
Name:
Posudek-Vedouci prace-22028_v.pdf
Size:
85.4 KB
Format:
Adobe Portable Document Format
Description:
Posudek-Vedouci prace-22028_v.pdf
Loading...
Thumbnail Image
Name:
review_122122.html
Size:
1.45 KB
Format:
Hypertext Markup Language
Description:
review_122122.html
Collections