Systém pro vyhledávání a výběry relevantních článků z Wikipedie podle tématu

Loading...
Thumbnail Image
Date
ORCID
Mark
C
Journal Title
Journal ISSN
Volume Title
Publisher
Vysoké učení technické v Brně. Fakulta informačních technologií
Abstract
Cílem této práce je navrhnout a implementovat systém, který umožní výběr tematicky zaměřených článků z Wikipedie za účelem úspory místa při jejím offline uložení. Řešení tohoto problému je dosaženo s využitím metod spadajících do oblasti vyhledávání informací a jejich konkrétní implementací v rámci nástroje Elasticsearch. Systém se na základě zadaných klíčových slov snaží určit, o jakou tematickou oblast se uživatel zajímá a články z této oblasti zařadit do výsledného výběru. K tomu využívá především mechanismy pro určení podobných dokumentů a zahrnutí všech článků z kategorií, které se ve výběru často opakují. Velikosti souborů generovaných výsledným systémem na základě dotazů nad Simple English Wikipedia se obvykle pohybují pod 30 MB.
The goal of this paper is to design and implement a system for selection of Wikipedia articles relevant to a given topic in order to reduce the amount of memory taken by its offline version. The solution of this problem was achieved with use of methods from information retrieval and theirs implementation using Elasticsearch search engine. The system tries to determine the area of user's interest by given keywords and make a selection of articles from that area. This is achieved by measuring of similarity of articles and adding all articles from frequent categories in the selection. The sizes of the output files for queries over Simple English Wikipedia are usually below 30 MB.
Description
Citation
SUCHÝ, O. Systém pro vyhledávání a výběry relevantních článků z Wikipedie podle tématu [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2015.
Document type
Document version
Date of access to the full text
Language of document
cs
Study field
Informační technologie
Comittee
doc. Ing. Jaroslav Zendulka, CSc. (předseda) doc. Ing. Zdeněk Kotásek, CSc. (místopředseda) doc. Ing. Lukáš Burget, Ph.D. (člen) Ing. Radek Kočí, Ph.D. (člen) Ing. Zbyněk Křivka, Ph.D. (člen)
Date of acceptance
2015-06-17
Defence
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm C. Otázky u obhajoby: Proč jste namísto normální anglické Wikipedie použil Simple English Wikipedii, která je mnohem menší (cca 100 MB v komprimované formě) a není u ní problém s nedostatkem místa při offline použití tak znatelný? Z práce je zřejmé, že jste u textů z Wikipedie neodstraňoval MediaWiki značkování. Tímto se do dalšího zpracování dostala spousta nežádoucích termů, které mohly negativně ovlinit výsledky. Proč jste toto značkování neodstraňoval?
Result of defence
práce byla úspěšně obhájena
Document licence
Standardní licenční smlouva - přístup k plnému textu bez omezení
DOI
Collections
Citace PRO