Show simple item record

Language Identification of Text Document

dc.contributor.advisorSzőke, Igorcs
dc.contributor.authorCakl, Jancs
dc.date.accessioned2019-06-14T10:53:54Z
dc.date.available2019-06-14T10:53:54Z
dc.date.created2016cs
dc.identifier.citationCAKL, J. Automatická detekce jazyka textového dokumentu [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2016.cs
dc.identifier.other96438cs
dc.identifier.urihttp://hdl.handle.net/11012/62156
dc.description.abstractTato práce se zabývá rozpoznáním jazyka textového dokumentu. Výsledný program obsahuje implementaci dvou odlišných metod určených pro rozpoznání jazyka textu. První metoda je založena na frekvenčních statistikách N-gramu. Druhou metodou jsou Markovské řetězce a poslední metoda za účelem rozpoznání jazyka využívá umělou neuronovou síť. Řešení je implementováno v jazyce Python.cs
dc.description.abstractThe thesis deals with a language identification of a text document. The final program includes three different implementation methods of language identification. The first method is based on a frequency statistics of N-gram. The second one represents Markov chains and the last one uses the simulated neural net for the identification purposes. The result is implemented in the Python language.en
dc.language.isocscs
dc.publisherVysoké učení technické v Brně. Fakulta informačních technologiícs
dc.rightsStandardní licenční smlouva - přístup k plnému textu bez omezenícs
dc.subjectN-gramcs
dc.subjectumělá neuronová síťcs
dc.subjectrozpoznání jazykacs
dc.subjectMarkovské řetězcecs
dc.subjectN-gramen
dc.subjectartificial neural networken
dc.subjectlanguage identificationen
dc.subjectMarkov chainsen
dc.titleAutomatická detekce jazyka textového dokumentucs
dc.title.alternativeLanguage Identification of Text Documenten
dc.typeTextcs
dcterms.dateAccepted2016-06-15cs
dcterms.modified2020-05-10-16:12:33cs
thesis.disciplineInformační technologiecs
thesis.grantorVysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédiícs
thesis.levelBakalářskýcs
thesis.nameBc.cs
sync.item.dbid96438en
sync.item.dbtypeZPen
sync.item.insts2020.06.23 11:02:17en
sync.item.modts2020.06.23 10:32:21en
eprints.affiliatedInstitution.facultyFakulta informačních technologiícs
dc.contributor.refereePešán, Jancs
dc.description.markBcs
dc.type.driverbachelorThesisen
dc.type.evskpbakalářská prácecs
but.committeedoc. Dr. Ing. Jan Černocký (předseda) prof. Ing. Martin Drahanský, Ph.D. (místopředseda) Ing. Michal Bidlo, Ph.D. (člen) RNDr. Marek Rychlý, Ph.D. (člen) Ing. Michal Španěl, Ph.D. (člen)cs
but.defenceStudent nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm velmi dobře (B). Otázky u obhajoby: Při získávání datových sad jste se zaměřil na paralelní korpusy, má to nějaký vliv na trénování systému? A pokud ano, jaký? U klasifikace češtiny a slovenštiny s diakritikou a bez (tabulka 5.3) se objevuje častá záměna Cestina za Slovenstina/Neznamy, ale tento výsledek není symetrický (Slovenstina má 98% přesnost). Proč tomu tak je? Při návrhu datových sad (tabulka 3.2) není stejné množství slov ve všech jazycích. Jak to může ovlivnit výkon klasifikátoru?cs
but.resultpráce byla úspěšně obhájenacs
but.programInformační technologiecs
but.jazykčeština (Czech)


Files in this item

Thumbnail
Thumbnail
Thumbnail
Thumbnail

This item appears in the following Collection(s)

Show simple item record