Vytvoření znalostní báze entit z české Wikipedie

Loading...
Thumbnail Image
Date
ORCID
Mark
B
Journal Title
Journal ISSN
Volume Title
Publisher
Vysoké učení technické v Brně. Fakulta informačních technologií
Abstract
Cílem této práce je navrhnout a implementovat systém pro automatickou extrakci pojmenovaných entit z textů české Wikipedie, vytvořit znalostní báze těchto entit a vyhodnotit úspěšnost a výsledky vytvořeného systému. První část práce vysvětluje základní pojmy z této oblasti zpracování přirozeného jazyka a informuje o existujících systémech podobného charakteru. V ústřední části je popsán vlastní návrh několika metod extrakce a způsobu implementace těchto metod. K extrakci byly vybrány tyto entitní typy: osoby, místa, události a organizace. V závěru jsou popsány výsledky práce, tedy úspěšnost jednolitých metod u daného entitního typu a statistiky extrakce jednotlivých entit vztažené k celkovému složení české Wikipedie.
The aim of this thesis is to propose and implement a system for an automatic extraction of named entities from Czech Wikipedia, to create a knowledge base consisting of these entities and to evaluate results of the created system. The first part explains basic notions of this field and discusses related work. The main part proposes several methods of extraction and details their implementation. The following types of entities are extracted: people, places, events and organizations. The final part of the thesis presents results, i.e., the success of the individual methods for each entity type and statistics on extraction of the individual entities in the whole Czech Wikipedia context.
Description
Citation
SYCHRA, M. Vytvoření znalostní báze entit z české Wikipedie [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2014.
Document type
Document version
Date of access to the full text
Language of document
cs
Study field
Informační technologie
Comittee
doc. Ing. Vladimír Janoušek, Ph.D. (předseda) doc. Ing. Vladimír Drábek, CSc. (místopředseda) Ing. Vítězslav Beran, Ph.D. (člen) Ing. Martin Hrubý, Ph.D. (člen) Ing. Zbyněk Křivka, Ph.D. (člen)
Date of acceptance
2014-06-17
Defence
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázku přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm "B". Otázky u obhajoby: Jak identifikujete úvodní věty z článků Wikipedie? Nezkazí Vám správnou identifikaci např. zkratky či infoboxy? Hodnoty atributů v infoboxech jsou často v různých formátech a obsahují i formátovací značky. Prováděl jste nějak jejich normalizaci? V práci píšete, že se Vám povedlo pomocí anglické Wikipedie identifikovat entity, které jste v české verzi nenašel. Povedlo se Vám také identifikovat nějaké entity z české Wikipedie, které nejsou v její anglické verzi? Pokud ano, kolik jich bylo?
Result of defence
práce byla úspěšně obhájena
Document licence
Standardní licenční smlouva - přístup k plnému textu bez omezení
DOI
Collections
Citace PRO