Extrakce textových dat z internetových stránek

Loading...
Thumbnail Image
Date
ORCID
Mark
C
Journal Title
Journal ISSN
Volume Title
Publisher
Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií
Abstract
Tato práce se zabývá získávání textových dat z webových stránek, přehledem jednotlivých wrpapperů a způsobů jejich extrakce. Obsahuje i přehled nejpoužívanějších programů pro extrakci dat z internetu. Součástí je program, vytvořený v programovacím jazyku Java, který umožňuje získávat textová data z konkrétních webových stránek a ukládat je do xml souboru.
This work focus at data and especially text mining from Web pages, an overview of programs for downloading the text and ways of their extraction. It also contains an overview of the most frequently used programs for extracting data from internet. The output of this thesis is a Java program that can download text from a selection of servers and save them into xml le.
Description
Citation
MAZAL, Z. Extrakce textových dat z internetových stránek [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2011.
Document type
Document version
Date of access to the full text
Language of document
cs
Study field
Telekomunikační a informační technika
Comittee
doc. Ing. Karel Burda, CSc. (předseda) prof. Ing. Miroslav Vozňák, Ph.D. (místopředseda) doc. Ing. Kamil Říha, Ph.D. (člen) Ing. Radim Pust, Ph.D. (člen) Ing. Stanislav Uchytil, Ph. D. (člen) Ing. Tomáš Pelka (člen) Ing. Ondřej Morský (člen)
Date of acceptance
2011-06-08
Defence
Otázky k obhajobě: - co je to stemmer? - proč ukládat stažený HTML soubor a až poté zpracovávat, proč to nedělat v paměti? - formální připomínky k obrázkům v DP - proč jsou napevno zakódovány parsery jednotlivých zdrojů?
Result of defence
práce byla úspěšně obhájena
Document licence
Standardní licenční smlouva - přístup k plnému textu bez omezení
DOI
Collections
Citace PRO