Extrakce hlavního textu z webových dokumentů

but.committeeprof. Ing. Miroslav Švéda, CSc. (předseda) doc. Dr. Ing. Petr Hanáček (místopředseda) Ing. Vítězslav Beran, Ph.D. (člen) Ing. Michal Bidlo, Ph.D. (člen) Ing. Bohuslav Křena, Ph.D. (člen)cs
but.defenceStudent nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázku oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm " B ". Otázky u obhajoby: Jaké úpravy v implementovaném nástroji by bylo nutné provést, aby byl reálně použitelný běžnými uživateli?cs
but.jazykčeština (Czech)
but.programInformační technologiecs
but.resultpráce byla úspěšně obhájenacs
dc.contributor.advisorBartík, Vladimírcs
dc.contributor.authorMrózek, Danielcs
dc.contributor.refereeBurget, Radekcs
dc.date.accessioned2019-06-14T10:52:29Z
dc.date.available2019-06-14T10:52:29Z
dc.date.created2014cs
dc.description.abstractTato práce se zabývá extrakcí hlavního textu z webových dokumentů ve formátu HTML. Jsou zde popsány již použité metody a jejich rozdělení. Praktická část se pak zabývá návrhem algoritmu pro detekci hlavního textu v HTML stránkách založeném na analýze především textových rysů stránky v kombinaci s vlastnostmi založených na pozici v dokumentu. Výsledná klasifikace je řešena pomocí vícevrstvé perceptonové sítě. Je zde rovněž popsána implementace navrhnutého algoritmu, postup při testování a prezentace zjištěných výsledků.cs
dc.description.abstractThis thesis deals with the main text extraction from the web documents in HTML format. It describes some methods that are already used and their separation. The goal of the practical part is to propose an algorithm for main text detection in HTML pages using primarily text features in combination with position features. Block classification is solved by multilayer perceptron. It also describes implementation of the proposed algorithm, the testing procedure and presentation of the obtained results.en
dc.description.markBcs
dc.identifier.citationMRÓZEK, D. Extrakce hlavního textu z webových dokumentů [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2014.cs
dc.identifier.other88527cs
dc.identifier.urihttp://hdl.handle.net/11012/56629
dc.language.isocscs
dc.publisherVysoké učení technické v Brně. Fakulta informačních technologiícs
dc.rightsStandardní licenční smlouva - přístup k plnému textu bez omezenícs
dc.subjectextrakcecs
dc.subjectdolovánícs
dc.subjecthlavní obsahcs
dc.subjecttextové rysycs
dc.subjectHTMLcs
dc.subjectMLPcs
dc.subjectumělá neuronová síťcs
dc.subjectextractionen
dc.subjectminingen
dc.subjectmain texten
dc.subjecttext featuresen
dc.subjectHTMLen
dc.subjectMLPen
dc.subjectartificial neural networken
dc.titleExtrakce hlavního textu z webových dokumentůcs
dc.title.alternativeMain Text Extraction from Web Documentsen
dc.typeTextcs
dc.type.driverbachelorThesisen
dc.type.evskpbakalářská prácecs
dcterms.dateAccepted2014-08-26cs
dcterms.modified2020-05-10-16:11:53cs
eprints.affiliatedInstitution.facultyFakulta informačních technologiícs
sync.item.dbid88527en
sync.item.dbtypeZPen
sync.item.insts2021.11.12 12:00:24en
sync.item.modts2021.11.12 11:38:15en
thesis.disciplineInformační technologiecs
thesis.grantorVysoké učení technické v Brně. Fakulta informačních technologií. Ústav informačních systémůcs
thesis.levelBakalářskýcs
thesis.nameBc.cs
Files
Original bundle
Now showing 1 - 2 of 2
Loading...
Thumbnail Image
Name:
final-thesis.pdf
Size:
608.39 KB
Format:
Adobe Portable Document Format
Description:
final-thesis.pdf
Loading...
Thumbnail Image
Name:
review_88527.html
Size:
1.44 KB
Format:
Hypertext Markup Language
Description:
review_88527.html
Collections