but.committee	doc. RNDr. Pavel Smrž, Ph.D. (předseda) doc. Dr. Ing. Otto Fučík (místopředseda) doc. Mgr. Lukáš Holík, Ph.D. (člen) Ing. Igor Szőke, Ph.D. (člen) Ing. Vladimír Veselý, Ph.D. (člen)	cs
but.defence	Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm D. Otázky u obhajoby: Na straně 7 uvádíte, že jste do vyhodnocení zahrnul pouze typy entit, které získaly úspěšnost alespoň 80 %. Můžete komisi ukázat, jaká byla úspěšnost pro ostatní typy entit, které jste do práce nezahrnul? Na straně 39 uvádíte, že v květnové verzi dumpu Wikipedie bylo smazáno 144 820 článků, které se nacházely v dubnové verzi. Můžete zkusit tyto smazané články zběžně analyzovat a shrnout komisi předpokládané hlavní důvody jejich smazání? Nemohlo se stát, že došlo pouze k jejich přejmenování?	cs
but.jazyk	čeština (Czech)
but.program	Informační technologie	cs
but.result	práce byla úspěšně obhájena	cs
dc.contributor.advisor	Smrž, Pavel	cs
dc.contributor.author	Valušek, Ondřej	cs
dc.contributor.referee	Otrusina, Lubomír	cs
dc.date.accessioned	2020-06-23T09:05:20Z
dc.date.available	2020-06-23T09:05:20Z
dc.date.created	2019	cs
dc.description.abstract	Tato práce se zabývá automatickou extrakcí typů entit ve článcích anglické Wikipedie a jejich vybraných atributů. Jsou v ní představeny postupy za využití prvků strojového učení, které lze ke splnění tohoto účelu využít. Z článků jsou také extrahovány některé důležité atributy, jako například data narození u osob, rozlohy u jezer a podobně. Pomocí systému představeného v této práci je možné ze souboru obsahující všechny články Wikipedie (tzv. dump souboru) vytvořit znalostní databázi, ve které budou klasifikovány miliony článků, dle typu entity o které pojednávají, na základě malé tréninkové sady. Při tomto procesu je také generován soubor, kde jsou kromě ostatních příznaků z článků extrahována tzv. definiční slova, což jsou klíčová slova nalezena pomocí analýzy přirozeného textu. Ta je možno použít také v jiných oblastech, než pouze při určování typů entit. Součástí celého systému je také modul, který označí změny mezi jednotlivými verzemi znalostní databáze, tedy například, které články byly přidány, které smazány a u kterých se udála změna.	cs
dc.description.abstract	This thesis deals with automatic type extraction in English Wikipedia articles and their attributes. Several approaches with the use of machine learning will be presented. Furthermore, important features like date of birth in articles regarding people, or area in those about lakes, and many more, will be extracted. With the use of the system presented in this thesis, one can generate a well structured knowledge base, using a file with Wikipedia articles (called dump file) and a small training set containing a few well-classed articles. Such knowledge base can then be used for semantic enrichment of text. During this process a file with so called definition words is generated. Definition words are features extracted by natural text analysis, which could be used also in other ways than in this thesis. There is also a component that can determine, which articles were added, deleted or modified in between the creation of two different knowledge bases.	en
dc.description.mark	D	cs
dc.identifier.citation	VALUŠEK, O. Extrakce informací z Wikipedie [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2019.	cs
dc.identifier.other	121835	cs
dc.identifier.uri	http://hdl.handle.net/11012/180089
dc.language.iso	cs	cs
dc.publisher	Vysoké učení technické v Brně. Fakulta informačních technologií	cs
dc.rights	Standardní licenční smlouva - přístup k plnému textu bez omezení	cs
dc.subject	klasifikace článků	cs
dc.subject	určování typů entit	cs
dc.subject	přirozený text	cs
dc.subject	zpracování přirozeného jazyka	cs
dc.subject	určováníslovních druhů	cs
dc.subject	SpaCy	cs
dc.subject	Stanford CoreNLP	cs
dc.subject	Wikipedie	cs
dc.subject	SVM	cs
dc.subject	Metoda podpůrnýchvektorů	cs
dc.subject	strojové učení	cs
dc.subject	umělá inteligence	cs
dc.subject	extrakce atributů	cs
dc.subject	article classification	en
dc.subject	entity type detection	en
dc.subject	natural text	en
dc.subject	natural language processing	en
dc.subject	partof-speech tagging	en
dc.subject	SpaCy	en
dc.subject	Stanford CoreNLP	en
dc.subject	Wikipedia	en
dc.subject	SVM	en
dc.subject	Support Vector Machine	en
dc.subject	machine learning	en
dc.subject	artificial intelligence	en
dc.subject	attribute extraction	en
dc.title	Extrakce informací z Wikipedie	cs
dc.title.alternative	Information Extraction from Wikipedia	en
dc.type	Text	cs
dc.type.driver	bachelorThesis	en
dc.type.evskp	bakalářská práce	cs
dcterms.dateAccepted	2019-06-10	cs
dcterms.modified	2019-07-08-13:31:13	cs
eprints.affiliatedInstitution.faculty	Fakulta informačních technologií	cs
sync.item.dbid	121835	en
sync.item.dbtype	ZP	en
sync.item.insts	2021.11.12 12:00:44	en
sync.item.modts	2021.11.12 10:54:50	en
thesis.discipline	Informační technologie	cs
thesis.grantor	Vysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédií	cs
thesis.level	Bakalářský	cs
thesis.name	Bc.	cs

Extrakce informací z Wikipedie

Files

Original bundle

Collections