Vliv akustiky prostředí na úspěšnost rozpoznávače řeči

but.committeeprof. Ing. Martin Drahanský, Ph.D. (předseda) prof. Ing. Tomáš Vojnar, Ph.D. (místopředseda) Ing. František Grézl, Ph.D. (člen) Ing. Martin Hrubý, Ph.D. (člen) Mgr. Kamil Malinka, Ph.D. (člen) Mgr. Ing. Pavel Očenášek, Ph.D. (člen)cs
but.defenceStudent nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm C. Otázky u obhajoby: V práci ukazujete i analyzujete výraznou degradaci systému za předpokladu že nebyl trénován ve stejných nebo podobných podmínkách. Zvažoval jste užití de-reverbereračních technik jako například Weight Prediction Error (WPE) V případě použití alignmentů z čistých dat pro trénování sitě na augmentovaných datech, použil ste jen alignmenty nebo i lattice? Z pohledu LF-MMI objektivní funkce lze zvážit pouze čisté alignmenty (slouží pro cross-entropy regularizaci) a nechat lattice vygenerovat na cilových datech. r- a zejména x- vektory trénujete na malém množství dat (100h). Pro tuto architekturu je dobré mít aspoň 0.5-1k hodin (bez augmentace).  Můžete zdůvodnit proč?cs
but.jazykčeština (Czech)
but.programInformační technologiecs
but.resultpráce byla úspěšně obhájenacs
dc.contributor.advisorSzőke, Igorcs
dc.contributor.authorPaliesek, Jakubcs
dc.contributor.refereeKarafiát, Martincs
dc.date.accessioned2021-06-25T07:55:44Z
dc.date.available2021-06-25T07:55:44Z
dc.date.created2021cs
dc.description.abstractTáto diplomová práca sa venuje vplyvom akustiky miestnosti na úspešnosť rozpoznávania reči. Na vyhodnotenie experimentov bol použitý rečový korpus LibriSpeech a databáza impulzných odoziev a šumu ReverbDB. Skúmané rozpoznávače reči boli založené na Kaldi recepte Mini LibriSpeech. Najskôr bolo zmerané, ako sa rozpoznávač dokáže naučiť rozpoznávať vo vybraných prostediach použitím rovnakých akustických podmienok pri trénovaní aj testovaní. Následne bolo experimentované s architektúrou systému s cieľom dosiahnuť čo najlepšiu robustnosť voči rôznym novým podmienkam za použitia metód pre adaptáciu na prostredie pomocou r-vektorov a i-vektorov. Bol ukázaný prínos nedávno predstavenej techniky r-vektorov aj pri použití augmentácie dát pomocou reálnych impulných odoziev.cs
dc.description.abstractThis diploma thesis deals with impact of room acoustics on automatic speech recognition (ASR) accuracy. Experiments were evaluated on speech corpus LibriSpeech and database of impulse responses and noise called ReverbDB. Used ASRs were based on Mini LibriSpeech recipe for Kaldi. First it was examined how well can ASR learn to transcribe in selected environments by using the same acoustic conditions during training and testing. Next, experiments were carried out with modifications of ASR architecture in order to achieve better robustness against new conditions by using methods for adapation to room acoustics - r-vectors and i-vectors. It was shown that recently proposed method of r-vectors is beneficial even when using real impulse responses for data augmentation.en
dc.description.markCcs
dc.identifier.citationPALIESEK, J. Vliv akustiky prostředí na úspěšnost rozpoznávače řeči [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2021.cs
dc.identifier.other136802cs
dc.identifier.urihttp://hdl.handle.net/11012/200173
dc.language.isocscs
dc.publisherVysoké učení technické v Brně. Fakulta informačních technologiícs
dc.rightsStandardní licenční smlouva - přístup k plnému textu bez omezenícs
dc.subjectrozpoznávanie rečics
dc.subjectakustika miestnostics
dc.subjectadaptáciacs
dc.subjectimpulzná odozvacs
dc.subjectspeech recognitionen
dc.subjectroom acousticsen
dc.subjectadaptationen
dc.subjectimpulse responseen
dc.titleVliv akustiky prostředí na úspěšnost rozpoznávače řečics
dc.title.alternativeImpact of Environment Acoustics on Speech Recognition Accuracyen
dc.typeTextcs
dc.type.drivermasterThesisen
dc.type.evskpdiplomová prácecs
dcterms.dateAccepted2021-06-23cs
dcterms.modified2021-06-24-11:35:09cs
eprints.affiliatedInstitution.facultyFakulta informačních technologiícs
sync.item.dbid136802en
sync.item.dbtypeZPen
sync.item.insts2021.11.22 23:10:07en
sync.item.modts2021.11.22 22:22:15en
thesis.disciplineBezpečnost informačních technologiícs
thesis.grantorVysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédiícs
thesis.levelInženýrskýcs
thesis.nameIng.cs
Files
Original bundle
Now showing 1 - 4 of 4
Loading...
Thumbnail Image
Name:
final-thesis.pdf
Size:
2.2 MB
Format:
Adobe Portable Document Format
Description:
final-thesis.pdf
Loading...
Thumbnail Image
Name:
Posudek-Vedouci prace-23934_v.pdf
Size:
86.15 KB
Format:
Adobe Portable Document Format
Description:
Posudek-Vedouci prace-23934_v.pdf
Loading...
Thumbnail Image
Name:
Posudek-Oponent prace-23934_o.pdf
Size:
92.78 KB
Format:
Adobe Portable Document Format
Description:
Posudek-Oponent prace-23934_o.pdf
Loading...
Thumbnail Image
Name:
review_136802.html
Size:
1.46 KB
Format:
Hypertext Markup Language
Description:
review_136802.html
Collections