Implementace algoritmu pro vizuální segmentaci www stránek

Loading...
Thumbnail Image
Date
ORCID
Mark
A
Journal Title
Journal ISSN
Volume Title
Publisher
Vysoké učení technické v Brně. Fakulta informačních technologií
Abstract
Segmentace WWW stránek, neboli dělení stránky na různé sémantické bloky, je jedna z disciplín techniky extrakce informací. Diplomová práce se zabývá metodou Vision-based Page Segmentation - VIPS, která spočívá v dělení stránky na základě vizuálních vlastností prvků stránky. Metoda je uvedena v kontextu dalších význačných segmentačních postupů. V práci jsou popsány a na příkladech ukázány nejdležitější kroky, ze kterých se tato metodika skládá. Pro metodu VIPS je nezbytná spolupráce s vykreslovacím jádrem WWW stránek, z důvodu získání DOM stromu stránky. V práci jsou představeny a popsány čtyři nejvýznačnější enginy pro programovací jazyk Java. Výstupem této práce je implementace algoritmu VIPS právě v jazyce Java s využitím jádra CSSBox. Dále je představena původní implementace algoritmu z laboratoří firmy Microsoft. Popsány jsou jednotlivé etapy vývoje knihovny realizující metodu VIPS a vlastního přístupu k jejímu řešení. Výsledek práce je v závěru demonstrován při segmentaci několika internetových stránek.
Segmentation of WWW pages or page division on di erent semantics blocks is one of the disciplines of information extraction. Master's thesis deals with Vision-based Page Segmentation - VIPS method, which consist in division based on visual properties of page's elements. The method is given in context of other prominent segmentation procedures. In this work, the key steps, that this method consist of are shown and described on examples. For VIPS method it is necessary to cooperate with WWW pages rendering engine in order to obtain Document Object Model of page. The paper presents and describes four most important engines for Java programming language. The output of this work is implementation of VIPS algorithm just in Java language with usage of CSSBox core. The original algorithm implementation from Microsoft's labs is presented. The di erent development stages of library implementing VIPS method and my approach to it's solution are described. In the end of this work the work's outcome is demonstrated on several pages segmentation.
Description
Citation
POPELA, T. Implementace algoritmu pro vizuální segmentaci www stránek [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2012.
Document type
Document version
Date of access to the full text
Language of document
cs
Study field
Informační systémy
Comittee
prof. Ing. Tomáš Hruška, CSc. (předseda) doc. Dr. Ing. Petr Hanáček (místopředseda) doc. RNDr. Jitka Kreslíková, CSc. (člen) Ing. Zbyněk Křivka, Ph.D. (člen) Prof. Ing. Pavol Návrat, Ph.D. (člen) doc. Ing. František Zbořil, Ph.D. (člen)
Date of acceptance
2012-06-18
Defence
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se pak seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm výborně. Otázky u obhajoby: Které vlastnosti použitého vykreslovacího jádra (nebo jejich nepřítomnost) považujete za nejvíce omezující pro výsledky segmentace?
Result of defence
práce byla úspěšně obhájena
Document licence
Standardní licenční smlouva - přístup k plnému textu bez omezení
DOI
Collections
Citace PRO