Show simple item record

Multi-Task Neural Networks for Speech Recognition

dc.contributor.advisorKarafiát, Martinen
dc.contributor.authorEgorova, Ekaterinaen
dc.date.accessioned2019-05-17T07:16:51Z
dc.date.available2019-05-17T07:16:51Z
dc.date.created2014cs
dc.identifier.citationEGOROVA, E. Multi-Task Neural Networks for Speech Recognition [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2014.cs
dc.identifier.other79742cs
dc.identifier.urihttp://hdl.handle.net/11012/53377
dc.description.abstractPrvní část této diplomové práci se zabývá teoretickým rozborem principů neuronových sítí, včetně možnosti jejich použití v oblasti rozpoznávání řeči. Práce pokračuje popisem viceúkolových neuronových sítí a souvisejících experimentů. Praktická část práce obsahovala změny software pro trénování neuronových sítí, které umožnily viceúkolové trénování. Je rovněž popsáno připravené prostředí, včetně několika dedikovaných skriptů. Experimenty představené v této diplomové práci ověřují použití artikulačních characteristik řeči pro viceúkolové trénování. Experimenty byly provedeny na dvou řečových databázích lišících se kvalitou a velikostí a representujících různé jazyky - angličtinu a vietnamštinu. Artikulační charakteristiky byly také kombinovány s jinými sekundárními úkoly, například kontextem, s záměrem ověřit jejich komplementaritu. Porovnaní je provedeno s neuronovými sítěmi různých velikostí tak, aby byl popsán vztah mezi velikostí neuronových sítí a efektivitou viceúkolového trénování. Závěrem provedených experimentů je, že viceúkolové trénování s použitím artikulačnich charakteristik jako sekundárních úkolů vede k lepšímu trénování neuronových sítí a výsledkem tohoto trénování může být přesnější rozpoznávání fonémů. V závěru práce jsou viceúkolové neuronové sítě testovány v systému rozpoznávání řeči jako extraktor příznaků.en
dc.description.abstractThe first part of this Master's thesis covers theoretical investigation into the principles and usage of neural networks, including their usability for the speech recognition tasks. Then it proceeds to summarize the multi-task neural networks' operating principles and some recent experiments with them. The practical part of the semester project reports changes made to a tool for neural network training which support multi-task training. Then the preparation of the settings is described, including a number of scripts written especially for this purpose. The experiments presented in the thesis explore the idea of using articulatory characteristics of phonemes as secondary tasks for multi-task training. The experiments are conducted on two different datasets of different quality and size and representing different languages - English and Vietnamese. Articulatory characteristics are occasionally combined with different secondary tasks, such as context, to see how well they function together. A comparison is made between the networks of different sizes to see how their size affects the effectiveness of multi-task training. These experiments show that multi-task training with the use of articulatory characteristics as secondary tasks can enhance training and yield better phoneme accuracy as a result. Finally, multi-task training is embedded to a speech recognition system as a feature extractor.cs
dc.language.isoencs
dc.publisherVysoké učení technické v Brně. Fakulta informačních technologiícs
dc.rightsStandardní licenční smlouva - přístup k plnému textu bez omezenícs
dc.subjectRozpoznávání řečien
dc.subjectneuronové sítěen
dc.subjecthluboké neuronové sítěen
dc.subjectviceúkolové neuronové sítěen
dc.subjectSpeech recognitioncs
dc.subjectneural networkscs
dc.subjectdeep neural networkscs
dc.subjectmulti-task neural networks.cs
dc.titleMulti-Task Neural Networks for Speech Recognitionen
dc.title.alternativeMulti-Task Neural Networks for Speech Recognitioncs
dc.typeTextcs
dcterms.dateAccepted2014-06-20cs
dcterms.modified2020-05-10-16:11:33cs
thesis.disciplinePočítačová grafika a multimédiacs
thesis.grantorVysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédiícs
thesis.levelInženýrskýcs
thesis.nameIng.cs
sync.item.dbid79742en
sync.item.dbtypeZPen
sync.item.insts2020.06.23 11:09:30en
sync.item.modts2020.06.23 10:28:09en
eprints.affiliatedInstitution.facultyFakulta informačních technologiícs
dc.contributor.refereeVeselý, Karelen
dc.description.markBcs
dc.type.drivermasterThesisen
dc.type.evskpdiplomová prácecs
but.committeedoc. Dr. Ing. Jan Černocký (předseda) prof. Ing. Tomáš Vojnar, Ph.D. (místopředseda) prof. Ing. Adam Herout, Ph.D. (člen) Doc. Ing. Branislav Sobota, Ph.D. (člen) Ing. Josef Strnadel, Ph.D. (člen) Ing. Michal Španěl, Ph.D. (člen)cs
but.defenceStudentka nejprve prezentovala výsledky, kterých dosáhla v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Studentka následně odpověděla na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studentky na položené otázky rozhodla práci hodnotit stupněm "B" Otázky u obhajoby: Is there a secondary task that is likely to be helpful for many languages? What would happen if the individual classification tasks had weights? For Vietnamese, all the secondary tasks are helpful, but don't combine well. Do you have an idea what might have gone wrong?cs
but.resultpráce byla úspěšně obhájenacs
but.programInformační technologiecs
but.jazykangličtina (English)


Files in this item

Thumbnail
Thumbnail

This item appears in the following Collection(s)

Show simple item record