Extrakce informací z Wikipedie

but.committeedoc. RNDr. Pavel Smrž, Ph.D. (předseda) doc. Dr. Ing. Otto Fučík (místopředseda) doc. Mgr. Lukáš Holík, Ph.D. (člen) Ing. Igor Szőke, Ph.D. (člen) Ing. Vladimír Veselý, Ph.D. (člen)cs
but.defenceStudent nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm D. Otázky u obhajoby: Na straně 7 uvádíte, že jste do vyhodnocení zahrnul pouze typy entit, které získaly úspěšnost alespoň 80 %. Můžete komisi ukázat, jaká byla úspěšnost pro ostatní typy entit, které jste do práce nezahrnul? Na straně 39 uvádíte, že v květnové verzi dumpu Wikipedie bylo smazáno 144 820 článků, které se nacházely v dubnové verzi. Můžete zkusit tyto smazané články zběžně analyzovat a shrnout komisi předpokládané hlavní důvody jejich smazání? Nemohlo se stát, že došlo pouze k jejich přejmenování?cs
but.jazykčeština (Czech)
but.programInformační technologiecs
but.resultpráce byla úspěšně obhájenacs
dc.contributor.advisorSmrž, Pavelcs
dc.contributor.authorValušek, Ondřejcs
dc.contributor.refereeOtrusina, Lubomírcs
dc.date.accessioned2020-06-23T09:05:20Z
dc.date.available2020-06-23T09:05:20Z
dc.date.created2019cs
dc.description.abstractTato práce se zabývá automatickou extrakcí typů entit ve článcích anglické Wikipedie a jejich vybraných atributů. Jsou v ní představeny postupy za využití prvků strojového učení, které lze ke splnění tohoto účelu využít. Z článků jsou také extrahovány některé důležité atributy, jako například data narození u osob, rozlohy u jezer a podobně. Pomocí systému představeného v této práci je možné ze souboru obsahující všechny články Wikipedie (tzv. dump souboru) vytvořit znalostní databázi, ve které budou klasifikovány miliony článků, dle typu entity o které pojednávají, na základě malé tréninkové sady. Při tomto procesu je také generován soubor, kde jsou kromě ostatních příznaků z článků extrahována tzv. definiční slova, což jsou klíčová slova nalezena pomocí analýzy přirozeného textu. Ta je možno použít také v jiných oblastech, než pouze při určování typů entit. Součástí celého systému je také modul, který označí změny mezi jednotlivými verzemi znalostní databáze, tedy například, které články byly přidány, které smazány a u kterých se udála změna.cs
dc.description.abstractThis thesis deals with automatic type extraction in English Wikipedia articles and their attributes. Several approaches with the use of machine learning will be presented. Furthermore, important features like date of birth in articles regarding people, or area in those about lakes, and many more, will be extracted. With the use of the system presented in this thesis, one can generate a well structured knowledge base, using a file with Wikipedia articles (called dump file) and a small training set containing a few well-classed articles. Such knowledge base can then be used for semantic enrichment of text. During this process a file with so called definition words is generated. Definition words are features extracted by natural text analysis, which could be used also in other ways than in this thesis. There is also a component that can determine, which articles were added, deleted or modified in between the creation of two different knowledge bases.en
dc.description.markDcs
dc.identifier.citationVALUŠEK, O. Extrakce informací z Wikipedie [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2019.cs
dc.identifier.other121835cs
dc.identifier.urihttp://hdl.handle.net/11012/180089
dc.language.isocscs
dc.publisherVysoké učení technické v Brně. Fakulta informačních technologiícs
dc.rightsStandardní licenční smlouva - přístup k plnému textu bez omezenícs
dc.subjectklasifikace článkůcs
dc.subjecturčování typů entitcs
dc.subjectpřirozený textcs
dc.subjectzpracování přirozeného jazykacs
dc.subjecturčováníslovních druhůcs
dc.subjectSpaCycs
dc.subjectStanford CoreNLPcs
dc.subjectWikipediecs
dc.subjectSVMcs
dc.subjectMetoda podpůrnýchvektorůcs
dc.subjectstrojové učenícs
dc.subjectumělá inteligencecs
dc.subjectextrakce atributůcs
dc.subjectarticle classificationen
dc.subjectentity type detectionen
dc.subjectnatural texten
dc.subjectnatural language processingen
dc.subjectpartof-speech taggingen
dc.subjectSpaCyen
dc.subjectStanford CoreNLPen
dc.subjectWikipediaen
dc.subjectSVMen
dc.subjectSupport Vector Machineen
dc.subjectmachine learningen
dc.subjectartificial intelligenceen
dc.subjectattribute extractionen
dc.titleExtrakce informací z Wikipediecs
dc.title.alternativeInformation Extraction from Wikipediaen
dc.typeTextcs
dc.type.driverbachelorThesisen
dc.type.evskpbakalářská prácecs
dcterms.dateAccepted2019-06-10cs
dcterms.modified2019-07-08-13:31:13cs
eprints.affiliatedInstitution.facultyFakulta informačních technologiícs
sync.item.dbid121835en
sync.item.dbtypeZPen
sync.item.insts2021.11.12 12:00:44en
sync.item.modts2021.11.12 10:54:50en
thesis.disciplineInformační technologiecs
thesis.grantorVysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédiícs
thesis.levelBakalářskýcs
thesis.nameBc.cs
Files
Original bundle
Now showing 1 - 4 of 4
Loading...
Thumbnail Image
Name:
final-thesis.pdf
Size:
1.73 MB
Format:
Adobe Portable Document Format
Description:
final-thesis.pdf
Loading...
Thumbnail Image
Name:
Posudek-Oponent prace-18942_o.pdf
Size:
91.35 KB
Format:
Adobe Portable Document Format
Description:
Posudek-Oponent prace-18942_o.pdf
Loading...
Thumbnail Image
Name:
Posudek-Vedouci prace-18942_v.pdf
Size:
86.55 KB
Format:
Adobe Portable Document Format
Description:
Posudek-Vedouci prace-18942_v.pdf
Loading...
Thumbnail Image
Name:
review_121835.html
Size:
1.43 KB
Format:
Hypertext Markup Language
Description:
review_121835.html
Collections