Agreements and Disagreements between Automatic and Human Speaker Recognition

Loading...
Thumbnail Image
Date
ORCID
Mark
A
Journal Title
Journal ISSN
Volume Title
Publisher
Vysoké učení technické v Brně. Fakulta informačních technologií
Abstract
Tato práce se zabývá problémem rozpoznáváním mluvčího. Uvedený pojem je definován a doplněn o jednotlivé metody, které s ním souvisí. Cílem práce je poukázat na shody a rozdíly mezi lidským a automatickým procesem rozpoznávání mluvčího. V úvodu práce jsou popsány teoretické poznatky z obou zmíněných oblastí, tj. na jaké aspekty lidské řeči se zaměřuje člověk, resp. automatický systém. Následně je provedeno několik experimentů, které mají za úkol srovnat tyto dvě metody. Tyto experimenty jsou vyhodnoceny tak, že je možné pozorovat, které testovací úlohy dokáže lépe vyřešit člověk, aby následně bylo možné tyto poznatky použít ke zlepšení funkce automatického systému. V závěru práce je takovýto návrh na zlepšení automatického systému předveden a otestován. Testování proběhlo úspěšně a byla zaznamenána vyšší přesnost při vyhodnocování. Takový výsledek tedy může být užitý v dalších výzkumech a umožnit tak další vývoj v oblasti automatického rozpoznávání mluvčích.
This thesis deals with the problem of speaker recognition. The term is defined and individual methods related to it are described. The aim of the work is to point out the agreements and disagreements between human and automatic speaker recognition. At the beginning of the thesis, theoretical knowledge from both mentioned areas are described, i.e., what aspects of human speech do people, or automatic system respectively, focus on. Then, several experiments are performed to compare these two methods. These experiments are evaluated in such a way, that it is possible to observe which tasks can be better solved by people, in order to use the knowledge to improve the function of the automated system. At the end of the thesis, such an attempt to improve the automatic system is demonstrated and tested. Testing was successful and higher evaluation accuracy could be observed. Thus, such a result can be used in other research to allow further development in the field of automatic speaker recognition.
Description
Citation
VALENTA, J. Agreements and Disagreements between Automatic and Human Speaker Recognition [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2019.
Document type
Document version
Date of access to the full text
Language of document
en
Study field
Informační technologie
Comittee
doc. Dr. Ing. Jan Černocký (předseda) doc. Ing. Jiří Jaroš, Ph.D. (místopředseda) doc. RNDr. Dana Hliněná, Ph.D. (člen) Ing. Filip Orság, Ph.D. (člen) RNDr. Marek Rychlý, Ph.D. (člen)
Date of acceptance
2019-06-14
Defence
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A. Otázky u obhajoby: What do you mean - explain the sentence in 3.2.3: "It was found out that although large scale data behave beneficially in the PLDA classifier, they may be a big problem to work with i-vector extractor." Why? What is score calibration and why is it important for presenting scores to users in speaker recognition?
Result of defence
práce byla úspěšně obhájena
Document licence
Standardní licenční smlouva - přístup k plnému textu bez omezení
DOI
Collections
Citace PRO