Extrakce textových dat z internetových stránek
Extracting text data from the webpages
Author
Advisor
Červenec, RadekReferee
Morský, OndřejGrade
AAltmetrics
Metadata
Show full item recordAbstract
Tato práce se zabývá dolováním textových údajů z webových stránek, přehledem možných programů a způsoby extrakce textu. Součástí je program, vytvořený v programovacím jazyku Java, který umožňuje získávat textová data z konkrétních webových stránek a ukládat je do xml souboru. This work deals with text mining from web pages, an overview of available programs and its methods of text extraction. Part of this work is the program created in Java language, which allows text to obtain data from specific web pages and save them into XML file.
Keywords
Extrakce informací, získání textových dat z webu, problémy při extrakci dat, wrappery, Java program, Information extraction, text mining from Web pages, problems with extraction data, wrapper, the Java programLanguage
čeština (Czech)Study brunch
TeleinformatikaComposition of Committee
doc. Ing. Karel Němec, CSc. (předseda) doc. Ing. Václav Zeman, Ph.D. (místopředseda) Ing. Radomír Svoboda, Ph.D. (člen) doc. Ing. Lukáš Malina, Ph.D. (člen) Ing. Pavel Šilhavý, Ph.D. (člen) Ing. Zdeněk Martinásek, Ph.D. (člen) Ing. Ondřej Krajsa, Ph.D. (člen)Date of defence
2012-06-13Process of defence
Váš program pracuje s webovými stránkami pouze jednoho serveru. Jak byste změnil architekturu programu, aby bylo možné jednoduše přidat libovolný jiný server? V kapitole 2.8 uvádíte, že není možné editovat XML soubor. Je to skutečně pravda? Jaké máte možnosti pro úpravu XML souboru? Jaké má práce uplatnění?Result of the defence
práce byla úspěšně obhájenaPersistent identifier
http://hdl.handle.net/11012/9845Source
TROJÁK, D. Extrakce textových dat z internetových stránek [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2012.Collections
- 2012 [467]