Show simple item record

Robust Speaker Verification with Deep Neural Networks

dc.contributor.advisorMatějka, Pavelcs
dc.contributor.authorProfant, Jáncs
dc.date.accessioned2019-07-08T15:57:00Z
dc.date.available2019-07-08T15:57:00Z
dc.date.created2019cs
dc.identifier.citationPROFANT, J. Robustní rozpoznávání mluvčího pomocí neuronových sítí [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2019.cs
dc.identifier.other122072cs
dc.identifier.urihttp://hdl.handle.net/11012/180393
dc.description.abstractTématem této práce je analýza nejmodernějších systémů pro rozpoznávání řečníka za použití neurónových sítí (nazývaných x-vektory) v rozličných podmínkách, jako jsou širokopásmové a úzkopásmové data, který je robustní vůči neviděnému jazyku, specifickému hluku nebo telefonnimu kodeku. Automatický systém mapuje zvukovou nahrávku variabilní délky do fixně dlouhého vektoru, který je následně využit jako reprezentace řečníka. V této práci jsme porovnali systémy založené na neurónových sítich s výsledkem VUT týmu v Speakers in the Wild Speaker Recognition Challenge (SITW), který využíval donedávna velmi populární statistický model - i-vektory. Pozorovali jsme, že s nedávno publikovanými x-vektory dosahujeme 4.38 krát nižší Equal Error Rate pro SITW core-core evaluační sadu v porovnání s výsledkem z roku 2016 od VUT v SITW soutěži. Kromě toho jsme ukázali, že diarizace v nahrávkach s více mluvčími významně snižuje chybovost systému pro SITW core-multi evaluační data, ale podobný trend jsme neviděli pro dataset NIST SRE 2018 VAST.cs
dc.description.abstractThe objective of this work is to study state-of-the-art deep neural networks based speaker verification systems called x-vectors on various conditions, such as wideband and narrowband data and to develop the system, which is robust to unseen language, specific noise or speech codec. This system takes variable length audio recording and maps it into fixed length embedding which is afterward used to represent the speaker. We compared our systems to BUT's submission to Speakers in the Wild Speaker Recognition Challenge (SITW) from 2016, which used previously popular statistical models - i-vectors. We observed, that when comparing single best systems, with recently published x-vectors we were able to obtain more than 4.38 times lower Equal Error Rate on SITW core-core condition compared to SITW submission from BUT. Moreover, we find that diarization substantially reduces error rate when there are multiple speakers for SITW core-multi condition but we could not see the same trend on NIST SRE 2018 VAST data.en
dc.language.isocscs
dc.publisherVysoké učení technické v Brně. Fakulta informačních technologiícs
dc.rightsStandardní licenční smlouva - přístup k plnému textu bez omezenícs
dc.subjectverifikace mluvčíhocs
dc.subjectrozpoznávání mluvčíhocs
dc.subjectneurónové sítěcs
dc.subjectx-vectorcs
dc.subjecti-vectorcs
dc.subjectspeaker verificationen
dc.subjectspeaker recognitionen
dc.subjectneural networksen
dc.subjectx-vectoren
dc.subjecti-vectoren
dc.titleRobustní rozpoznávání mluvčího pomocí neuronových sítícs
dc.title.alternativeRobust Speaker Verification with Deep Neural Networksen
dc.typeTextcs
dcterms.dateAccepted2019-06-18cs
dcterms.modified2019-07-08-13:31:26cs
thesis.disciplinePočítačová grafika a multimédiacs
thesis.grantorVysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédiícs
thesis.levelInženýrskýcs
thesis.nameIng.cs
sync.item.dbid122072en
sync.item.dbtypeZPen
sync.item.insts2020.06.23 11:12:48en
sync.item.modts2020.06.23 10:33:58en
eprints.affiliatedInstitution.facultyFakulta informačních technologiícs
dc.contributor.refereeRohdin, Johan Andréascs
dc.description.markAcs
dc.type.drivermasterThesisen
dc.type.evskpdiplomová prácecs
but.committeedoc. Dr. Ing. Jan Černocký (předseda) doc. Ing. Martin Čadík, Ph.D. (místopředseda) Prof. Ing. Jan Holub, Ph.D. (člen) Ing. Zbyněk Křivka, Ph.D. (člen) Ing. Libor Polčák, Ph.D. (člen) Ing. Igor Szőke, Ph.D. (člen)cs
but.defenceStudent nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A. Otázky u obhajoby: What were the most important things that made x-vectors work so well compared to other approaches/architectures for DNN embeddings? Do you think more end-to-end approaches with joint training of embedding extractor and feature extractor or the backend will beat the x-vector approach in future? Regarding Section 5.3.2. If K is very large, the clusters will be formed by very few segments and their representative x-vector could be quite random. Doesn't this mean that one of the cluster may match the enroll speaker very well just by chance? Could a better approach be derived? S jakými sítěmi jste experimentoval? Nemělo by smysl trénovat rovnou klasifikátor?  cs
but.resultpráce byla úspěšně obhájenacs
but.programInformační technologiecs
but.jazykčeština (Czech)


Files in this item

Thumbnail
Thumbnail
Thumbnail
Thumbnail

This item appears in the following Collection(s)

Show simple item record