Rámec pro extrakci informace z WWW

Loading...
Thumbnail Image
Date
ORCID
Mark
B
Journal Title
Journal ISSN
Volume Title
Publisher
Vysoké učení technické v Brně. Fakulta informačních technologií
Abstract
Prostředí webu se postupně vyvinulo v nejrozsáhlejší zdroj dokumentů v elektronické podobě, takže by bylo velice výhodné, informace v těchto dokumentech zpracovávat automaticky. To však není jednoduchý úkol, protože většina dokumentů je napsána v HTML (Hypertext Markup Language), který neumožňuje definovat sémantiku dat v těchto dokumentech. Cílem této práce je vytvořit modulární systém pro extrakci informací z HTML dokumentů a jejich další zpracování. Dalším zpracováním se myslí ukládání získaných informací například do XML souboru nebo do relační databáze. Modularita systému umožňuje využití různých extrakčních metod a různých metod pro uložení získaných dat. Díky tomu je systém použitelný pro mnoho různých úloh.
Web environment has developed into the largest source of electronic documents, so it would be very useful, to process this information automatically. This is however not a trivial problem. Most documents are written in HTML (Hypertext Markup Language), which does not support semantic description of the content. The goal of this work is to create modular system for information extraction and further processing of this information from HTML documents. Further processing of information means to store this information in XML document or relational database. System modularity makes it possible to use various information extraction and storing methods, thus the system can be used for various tasks.
Description
Citation
BRYCHTA, F. Rámec pro extrakci informace z WWW [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2009.
Document type
Document version
Date of access to the full text
Language of document
cs
Study field
Informační systémy
Comittee
Date of acceptance
2009-06-23
Defence
Result of defence
práce byla úspěšně obhájena
Document licence
Standardní licenční smlouva - přístup k plnému textu bez omezení
DOI
Collections
Citace PRO