Separace mluvčích v časové doméně pomocí neuronové sítě

but.committeedoc. Ing. Richard Růžička, Ph.D., MBA (předseda) doc. RNDr. Dana Hliněná, Ph.D. (místopředseda) prof. Ing. Adam Herout, Ph.D. (člen) Ing. Bohuslav Křena, Ph.D. (člen) Ing. Zbyněk Křivka, Ph.D. (člen)cs
but.defenceStudent nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm C. Otázky u obhajoby: Vysvětlete, jak probíhalo trénování separačního modulu popsaného v sekci 4.2 Vaší práce - pomocí referenčních např. binárních masek nebo "end to end" ? Vysvětlete význam konvoluční vrstvy s velikostí konvolučního jádra 1x1. Jak si vaše řešení stojí oproti řešením, které pracují ve frekvenčně časové oblasti? Nemůže za horšími výsledky stát použití filtrů 1x1?cs
but.jazykčeština (Czech)
but.programInformační technologiecs
but.resultpráce byla úspěšně obhájenacs
dc.contributor.advisorŽmolíková, Kateřinacs
dc.contributor.authorPeška, Jiřícs
dc.contributor.refereeČernocký, Jancs
dc.date.accessioned2020-08-31T11:59:03Z
dc.date.available2020-08-31T11:59:03Z
dc.date.created2020cs
dc.description.abstractPráce se zabývá využitím konvolučních neuronových sítí pro automatickou separaci mluvčích v akustickém prostředí. Cílem je implementovat neuronovou síť podle architektury TasNet za použití frameworku PyTorch, natrénovat síť s různými hodnotami hyperparametrů a porovnat kvalitu separací vzhledem k velikosti síťě.   Architektura oproti dosavadním metodám, které převáděly vstupní směs do časově-frekvenční reprezentace, používá konvoluční autoenkodér, který vstupní směs převádí do nezáporné reprezentace, která je optimalizovaná pro extrakci jednotlivých mluvčích. Samotné separace je docíleno aplikací masek, které jsou odhadnuty v separačním modulu. Modul tvoří opakující se posloupnost konvolučních bloků se zvyšující se dilatací, která napomáhá k modelování časových závislostí ve zpracovávané směsi.   K vyhodnocení přesnosti byly použity metriky signal to distortion ratio (SDR), dále perceptual evaluation of speech quality (PESQ) a short-time objective intelligibility (STOI). Trénování a vyhodnocování proběhlo za použití Wall Street Journal datasetu (WSJ0). Natrénováním několika modelů s různými hodnotami hyperparametrů bylo možno pozorovat závislost mezi velikostí sítě a hodnotou SDR. Zatímco menší síť dosahovala, po 60 epochách trénování, přesnosti 10.8 dB, větší síť dosahovala až 12.71 dB.cs
dc.description.abstractA thesis is about the usage of convolutional neural networks for automatic speech separation in an acoustic environment. The goal is to implement the neural network by following a TasNet architecture in the PyTorch framework, train this network with various values of hyper-parameters, and to compare the quality of separations based on the size of the network. In contrast to older architectures that transformed an input mixture into a time-frequency representation, this architecture uses a convolutional autoencoder, which transforms input mixture into a non-negative representation optimized for a speaker extraction. Separation is achieved by applying the masks, which are estimated in the separation module. This module consists of stacked convolutional blocks with increasing dilation, which helps with modeling of the long-term time dependencies in processed speech. Evaluation of the precision of the network is measured by a signal to distortion (SDR) metric, by a perceptual evaluation of speech quality (PESQ), and the short-time objective intelligibility (STOI). The Wall Street Journal dataset (WSJ0) has been used for training and evaluation. Trained models with various values of hyper-parameters enable us to observe the dependency between the size of the network and SDR value. While smaller network after 60 epochs of training reached 10.8 dB of accuracy, a bigger network reached 12.71 dB.en
dc.description.markCcs
dc.identifier.citationPEŠKA, J. Separace mluvčích v časové doméně pomocí neuronové sítě [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2020.cs
dc.identifier.other129909cs
dc.identifier.urihttp://hdl.handle.net/11012/194996
dc.language.isocscs
dc.publisherVysoké učení technické v Brně. Fakulta informačních technologiícs
dc.rightsStandardní licenční smlouva - přístup k plnému textu bez omezenícs
dc.subjectneuronové sítěcs
dc.subjectzpracování řečics
dc.subjectkonvoluční neuronová síťcs
dc.subjectautoenkodércs
dc.subjectseparace mluvčíchcs
dc.subjectstrojové učenícs
dc.subjecttasnetcs
dc.subjecthluboké učenícs
dc.subjectartificial neural networksen
dc.subjectspeech processingen
dc.subjectconvolutional neural networksen
dc.subjectautoencoderen
dc.subjectspeech separationen
dc.subjectmachine learningen
dc.subjecttasneten
dc.subjectdeep learningen
dc.titleSeparace mluvčích v časové doméně pomocí neuronové sítěcs
dc.title.alternativeTime-Domain Neural Network Based Speaker Separationen
dc.typeTextcs
dc.type.driverbachelorThesisen
dc.type.evskpbakalářská prácecs
dcterms.dateAccepted2020-08-28cs
dcterms.modified2020-08-30-19:06:23cs
eprints.affiliatedInstitution.facultyFakulta informačních technologiícs
sync.item.dbid129909en
sync.item.dbtypeZPen
sync.item.insts2021.11.10 14:04:09en
sync.item.modts2021.11.10 13:10:16en
thesis.disciplineInformační technologiecs
thesis.grantorVysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédiícs
thesis.levelBakalářskýcs
thesis.nameBc.cs
Files
Original bundle
Now showing 1 - 4 of 4
Loading...
Thumbnail Image
Name:
final-thesis.pdf
Size:
3.35 MB
Format:
Adobe Portable Document Format
Description:
final-thesis.pdf
Loading...
Thumbnail Image
Name:
Posudek-Vedouci prace-23185_v.pdf
Size:
85.8 KB
Format:
Adobe Portable Document Format
Description:
Posudek-Vedouci prace-23185_v.pdf
Loading...
Thumbnail Image
Name:
Posudek-Oponent prace-23185_o.pdf
Size:
89.34 KB
Format:
Adobe Portable Document Format
Description:
Posudek-Oponent prace-23185_o.pdf
Loading...
Thumbnail Image
Name:
review_129909.html
Size:
1.47 KB
Format:
Hypertext Markup Language
Description:
review_129909.html
Collections