Extrakce textových dat z internetových stránek

Loading...
Thumbnail Image
Date
ORCID
Mark
A
Journal Title
Journal ISSN
Volume Title
Publisher
Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií
Abstract
Tato práce se zabývá dolováním textových údajů z webových stránek, přehledem možných programů a způsoby extrakce textu. Součástí je program, vytvořený v programovacím jazyku Java, který umožňuje získávat textová data z konkrétních webových stránek a ukládat je do xml souboru.
This work deals with text mining from web pages, an overview of available programs and its methods of text extraction. Part of this work is the program created in Java language, which allows text to obtain data from specific web pages and save them into XML file.
Description
Citation
TROJÁK, D. Extrakce textových dat z internetových stránek [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2012.
Document type
Document version
Date of access to the full text
Language of document
cs
Study field
Teleinformatika
Comittee
doc. Ing. Karel Němec, CSc. (předseda) doc. Ing. Václav Zeman, Ph.D. (místopředseda) Ing. Radomír Svoboda, Ph.D. (člen) doc. Ing. Lukáš Malina, Ph.D. (člen) Ing. Pavel Šilhavý, Ph.D. (člen) Ing. Zdeněk Martinásek, Ph.D. (člen) Ing. Ondřej Krajsa, Ph.D. (člen)
Date of acceptance
2012-06-13
Defence
Váš program pracuje s webovými stránkami pouze jednoho serveru. Jak byste změnil architekturu programu, aby bylo možné jednoduše přidat libovolný jiný server? V kapitole 2.8 uvádíte, že není možné editovat XML soubor. Je to skutečně pravda? Jaké máte možnosti pro úpravu XML souboru? Jaké má práce uplatnění?
Result of defence
práce byla úspěšně obhájena
Document licence
Standardní licenční smlouva - přístup k plnému textu bez omezení
DOI
Collections
Citace PRO