Show simple item record

Speaker Diarization

dc.contributor.advisorMatějka, Pavelcs
dc.contributor.authorTomášek, Pavelcs
dc.date.accessioned2018-10-21T20:58:44Z
dc.date.available2018-10-21T20:58:44Z
dc.date.created2011cs
dc.identifier.citationTOMÁŠEK, P. Kdy kdo mluví? [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2011.cs
dc.identifier.other42396cs
dc.identifier.urihttp://hdl.handle.net/11012/54089
dc.description.abstractPráce se věnuje implementaci diarizace mluvčího. Popisuje jednotlivé komponenty diarizačního systému, který umí zodpovědět otázku "kdy kdo mluví". Mezi součásti takového systému patří postupně extrakce příznaků vstupních dat, detekce řeči/ticha, segmentace mluvčích, jejich následné shlukování a nakonec i techniky zaměřené na zlepšení finální segmentace. Práce pochopitelně uvádí i dosažené výsledky implementovaného systému na testovací sadě nahrávek včetně popisu způsobu hodnocení. Testovací nahrávky pochází z NIST RT evaluací z let 2005 - 2007 a nejnižší dosažená chybovost na této sadě je 18,52% DER. K porovnání výsledků systému na testovací sadě souborů je zde uvedena i úspěšnost Marijna Huijbregtse z Nizozemí, který v roce 2009 pracoval se stejnými nahrávkami a dosáhl chybovosti 12,91% DER.cs
dc.description.abstractThis work aims at a task of speaker diarization. The goal is to implement a system which is able to decide "who spoke when". Particular components of implementation are described. The main parts are feature extraction, voice activity detection, speaker segmentation and clustering and finally also postprocessing. This work also contains results of implemented system on test data including a description of evaluation. The test data comes from the NIST RT Evaluation 2005 - 2007 and the lowest error rate for this dataset is 18.52% DER. Results are compared with diarization system implemented by Marijn Huijbregts from The Netherlands, who worked on the same data in 2009 and reached 12.91% DER.en
dc.language.isocscs
dc.publisherVysoké učení technické v Brně. Fakulta informačních technologiícs
dc.rightsStandardní licenční smlouva - přístup k plnému textu bez omezenícs
dc.subjectDiarizace mluvčíhocs
dc.subjectsegmentace ticho/řečcs
dc.subjectsegmentace řečics
dc.subjectaglomerativní shlukovánícs
dc.subjectViterbi algoritmuscs
dc.subjectstatistické modelování směsicí gaussovských rozloženícs
dc.subjectSpeaker diarizationen
dc.subjectvoice activity detectionen
dc.subjectspeaker segmentationen
dc.subjectagglomerative clusteringen
dc.subjectViterbi algorithmen
dc.subjectGaussian mixture modelingen
dc.titleKdy kdo mluví?cs
dc.title.alternativeSpeaker Diarizationen
dc.typeTextcs
dcterms.dateAccepted2011-06-23cs
dcterms.modified2014-07-17-13:53:50cs
thesis.disciplinePočítačová grafika a multimédiacs
thesis.grantorVysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédiícs
thesis.levelInženýrskýcs
thesis.nameIng.cs
sync.item.dbid42396en
sync.item.dbtypeZPen
sync.item.insts2019.06.21 08:38:55en
sync.item.modts2019.05.18 08:52:18en
dc.contributor.refereeKarafiát, Martincs
dc.description.markAcs
dc.type.drivermasterThesisen
dc.type.evskpdiplomová prácecs


Files in this item

Thumbnail
Thumbnail

This item appears in the following Collection(s)

Show simple item record