Separace mluvčích v časové doméně pomocí neuronové sítě

Loading...
Thumbnail Image
Date
ORCID
Mark
C
Journal Title
Journal ISSN
Volume Title
Publisher
Vysoké učení technické v Brně. Fakulta informačních technologií
Abstract
Práce se zabývá využitím konvolučních neuronových sítí pro automatickou separaci mluvčích v akustickém prostředí. Cílem je implementovat neuronovou síť podle architektury TasNet za použití frameworku PyTorch, natrénovat síť s různými hodnotami hyperparametrů a porovnat kvalitu separací vzhledem k velikosti síťě.   Architektura oproti dosavadním metodám, které převáděly vstupní směs do časově-frekvenční reprezentace, používá konvoluční autoenkodér, který vstupní směs převádí do nezáporné reprezentace, která je optimalizovaná pro extrakci jednotlivých mluvčích. Samotné separace je docíleno aplikací masek, které jsou odhadnuty v separačním modulu. Modul tvoří opakující se posloupnost konvolučních bloků se zvyšující se dilatací, která napomáhá k modelování časových závislostí ve zpracovávané směsi.   K vyhodnocení přesnosti byly použity metriky signal to distortion ratio (SDR), dále perceptual evaluation of speech quality (PESQ) a short-time objective intelligibility (STOI). Trénování a vyhodnocování proběhlo za použití Wall Street Journal datasetu (WSJ0). Natrénováním několika modelů s různými hodnotami hyperparametrů bylo možno pozorovat závislost mezi velikostí sítě a hodnotou SDR. Zatímco menší síť dosahovala, po 60 epochách trénování, přesnosti 10.8 dB, větší síť dosahovala až 12.71 dB.
A thesis is about the usage of convolutional neural networks for automatic speech separation in an acoustic environment. The goal is to implement the neural network by following a TasNet architecture in the PyTorch framework, train this network with various values of hyper-parameters, and to compare the quality of separations based on the size of the network. In contrast to older architectures that transformed an input mixture into a time-frequency representation, this architecture uses a convolutional autoencoder, which transforms input mixture into a non-negative representation optimized for a speaker extraction. Separation is achieved by applying the masks, which are estimated in the separation module. This module consists of stacked convolutional blocks with increasing dilation, which helps with modeling of the long-term time dependencies in processed speech. Evaluation of the precision of the network is measured by a signal to distortion (SDR) metric, by a perceptual evaluation of speech quality (PESQ), and the short-time objective intelligibility (STOI). The Wall Street Journal dataset (WSJ0) has been used for training and evaluation. Trained models with various values of hyper-parameters enable us to observe the dependency between the size of the network and SDR value. While smaller network after 60 epochs of training reached 10.8 dB of accuracy, a bigger network reached 12.71 dB.
Description
Citation
PEŠKA, J. Separace mluvčích v časové doméně pomocí neuronové sítě [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2020.
Document type
Document version
Date of access to the full text
Language of document
cs
Study field
Informační technologie
Comittee
doc. Ing. Richard Růžička, Ph.D., MBA (předseda) doc. RNDr. Dana Hliněná, Ph.D. (místopředseda) prof. Ing. Adam Herout, Ph.D. (člen) Ing. Bohuslav Křena, Ph.D. (člen) Ing. Zbyněk Křivka, Ph.D. (člen)
Date of acceptance
2020-08-28
Defence
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm C. Otázky u obhajoby: Vysvětlete, jak probíhalo trénování separačního modulu popsaného v sekci 4.2 Vaší práce - pomocí referenčních např. binárních masek nebo "end to end" ? Vysvětlete význam konvoluční vrstvy s velikostí konvolučního jádra 1x1. Jak si vaše řešení stojí oproti řešením, které pracují ve frekvenčně časové oblasti? Nemůže za horšími výsledky stát použití filtrů 1x1?
Result of defence
práce byla úspěšně obhájena
Document licence
Standardní licenční smlouva - přístup k plnému textu bez omezení
DOI
Collections
Citace PRO