but.committee	doc. Ing. Richard Růžička, Ph.D., MBA (předseda) doc. RNDr. Dana Hliněná, Ph.D. (místopředseda) prof. Ing. Adam Herout, Ph.D. (člen) Ing. Bohuslav Křena, Ph.D. (člen) Ing. Zbyněk Křivka, Ph.D. (člen)	cs
but.defence	Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm C. Otázky u obhajoby: Vysvětlete, jak probíhalo trénování separačního modulu popsaného v sekci 4.2 Vaší práce - pomocí referenčních např. binárních masek nebo "end to end" ? Vysvětlete význam konvoluční vrstvy s velikostí konvolučního jádra 1x1. Jak si vaše řešení stojí oproti řešením, které pracují ve frekvenčně časové oblasti? Nemůže za horšími výsledky stát použití filtrů 1x1?	cs
but.jazyk	čeština (Czech)
but.program	Informační technologie	cs
but.result	práce byla úspěšně obhájena	cs
dc.contributor.advisor	Žmolíková, Kateřina	cs
dc.contributor.author	Peška, Jiří	cs
dc.contributor.referee	Černocký, Jan	cs
dc.date.accessioned	2020-08-31T11:59:03Z
dc.date.available	2020-08-31T11:59:03Z
dc.date.created	2020	cs
dc.description.abstract	Práce se zabývá využitím konvolučních neuronových sítí pro automatickou separaci mluvčích v akustickém prostředí. Cílem je implementovat neuronovou síť podle architektury TasNet za použití frameworku PyTorch, natrénovat síť s různými hodnotami hyperparametrů a porovnat kvalitu separací vzhledem k velikosti síťě. Architektura oproti dosavadním metodám, které převáděly vstupní směs do časově-frekvenční reprezentace, používá konvoluční autoenkodér, který vstupní směs převádí do nezáporné reprezentace, která je optimalizovaná pro extrakci jednotlivých mluvčích. Samotné separace je docíleno aplikací masek, které jsou odhadnuty v separačním modulu. Modul tvoří opakující se posloupnost konvolučních bloků se zvyšující se dilatací, která napomáhá k modelování časových závislostí ve zpracovávané směsi. K vyhodnocení přesnosti byly použity metriky signal to distortion ratio (SDR), dále perceptual evaluation of speech quality (PESQ) a short-time objective intelligibility (STOI). Trénování a vyhodnocování proběhlo za použití Wall Street Journal datasetu (WSJ0). Natrénováním několika modelů s různými hodnotami hyperparametrů bylo možno pozorovat závislost mezi velikostí sítě a hodnotou SDR. Zatímco menší síť dosahovala, po 60 epochách trénování, přesnosti 10.8 dB, větší síť dosahovala až 12.71 dB.	cs
dc.description.abstract	A thesis is about the usage of convolutional neural networks for automatic speech separation in an acoustic environment. The goal is to implement the neural network by following a TasNet architecture in the PyTorch framework, train this network with various values of hyper-parameters, and to compare the quality of separations based on the size of the network. In contrast to older architectures that transformed an input mixture into a time-frequency representation, this architecture uses a convolutional autoencoder, which transforms input mixture into a non-negative representation optimized for a speaker extraction. Separation is achieved by applying the masks, which are estimated in the separation module. This module consists of stacked convolutional blocks with increasing dilation, which helps with modeling of the long-term time dependencies in processed speech. Evaluation of the precision of the network is measured by a signal to distortion (SDR) metric, by a perceptual evaluation of speech quality (PESQ), and the short-time objective intelligibility (STOI). The Wall Street Journal dataset (WSJ0) has been used for training and evaluation. Trained models with various values of hyper-parameters enable us to observe the dependency between the size of the network and SDR value. While smaller network after 60 epochs of training reached 10.8 dB of accuracy, a bigger network reached 12.71 dB.	en
dc.description.mark	C	cs
dc.identifier.citation	PEŠKA, J. Separace mluvčích v časové doméně pomocí neuronové sítě [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2020.	cs
dc.identifier.other	129909	cs
dc.identifier.uri	http://hdl.handle.net/11012/194996
dc.language.iso	cs	cs
dc.publisher	Vysoké učení technické v Brně. Fakulta informačních technologií	cs
dc.rights	Standardní licenční smlouva - přístup k plnému textu bez omezení	cs
dc.subject	neuronové sítě	cs
dc.subject	zpracování řeči	cs
dc.subject	konvoluční neuronová síť	cs
dc.subject	autoenkodér	cs
dc.subject	separace mluvčích	cs
dc.subject	strojové učení	cs
dc.subject	tasnet	cs
dc.subject	hluboké učení	cs
dc.subject	artificial neural networks	en
dc.subject	speech processing	en
dc.subject	convolutional neural networks	en
dc.subject	autoencoder	en
dc.subject	speech separation	en
dc.subject	machine learning	en
dc.subject	tasnet	en
dc.subject	deep learning	en
dc.title	Separace mluvčích v časové doméně pomocí neuronové sítě	cs
dc.title.alternative	Time-Domain Neural Network Based Speaker Separation	en
dc.type	Text	cs
dc.type.driver	bachelorThesis	en
dc.type.evskp	bakalářská práce	cs
dcterms.dateAccepted	2020-08-28	cs
dcterms.modified	2020-08-30-19:06:23	cs
eprints.affiliatedInstitution.faculty	Fakulta informačních technologií	cs
sync.item.dbid	129909	en
sync.item.dbtype	ZP	en
sync.item.insts	2021.11.10 14:04:09	en
sync.item.modts	2021.11.10 13:10:16	en
thesis.discipline	Informační technologie	cs
thesis.grantor	Vysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédií	cs
thesis.level	Bakalářský	cs
thesis.name	Bc.	cs

Separace mluvčích v časové doméně pomocí neuronové sítě

Files

Original bundle

Collections