Identifikace hudby, řeči, křiku, zpěvu v audio (video) záznamu

Danko, Michal

Identifikace hudby, řeči, křiku, zpěvu v audio (video) záznamu

Mark

C

Publisher

Vysoké učení technické v Brně. Fakulta informačních technologií

Abstract

Tato práce navazuje na trend posledních desetiletí ve využívaní neuronových sítí za účelem odhalení řeči v zašuměných datech. Text začíná základními poznatky o probíraných tématech, jako jsou audio příznaky, strojové učení a neuronové sítě. Síťové parametry jsou zkoumány s cílem poskytnout nejvhodnější zázemí pro experimenty. Hlavní úkol experimentů je sledovat vliv různých zvukových událostí na detekci řeči na malé a různorodé databáze. Přičemž se ukázalo, že nejvýhodnější jsou zvukové události v korelaci s řečí. Kromě toho, přesnost akustických událostí, dříve použita pouze jako doplněk k přesnosti řeči, je také součástí experimentování. Experiment zkoumání datových sad rozšiřených o více spravedlivě rozděleny data ukázal, že samotné rozšiření nezaručuje zlepšení. Na závěr, poslední experiment demonstruje, že síti se skutečně podařilo naučit, jak předpovědět hlasové aktivity v obou případech čistých i zašuměných dat.
This thesis follows the trend of last decades in using neural networks in order to detect speech in noisy data. The text begins with basic knowledge about discussed topics, such as audio features, machine learning and neural networks. The network parameters are examined in order to provide the most suitable background for the experiments. The main focus of the experiments is to observe the influence of various sound events on the speech detection on a small, diverse database. Where the sound events correlated to the speech proved to be the most beneficial. In addition, the accuracy of the acoustic events, previously used only as a supplement to the speech, is also a part of experimentation. The experiment of examining the extending of the datasets by more fairly distributed data shows that it doesn't guarantee an improvement. And finally, the last experiment demonstrates that the network indeed succeeded in learning how to predict voice activity in both clean and noisy data.

Keywords

Neurální sítě, řeč, šum, detekce zvukových událostí, detekce hlasové aktivity, Theano, víceúčelové sítě, Neural networks, speech, noise, acoustic event detection, voice activity detection, Theano, multi-task networks

Citation

DANKO, M. Identifikace hudby, řeči, křiku, zpěvu v audio (video) záznamu [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2016.

Language of document

cs

Study field

Informační systémy

Comittee

doc. Dr. Ing. Dušan Kolář (předseda) prof. Ing. Tomáš Hruška, CSc. (místopředseda) Ing. Miroslav Balík, Ph.D. (člen) Ing. Vladimír Bartík, Ph.D. (člen) doc. Mgr. Adam Rogalewicz, Ph.D. (člen) doc. Ing. Jaroslav Zendulka, CSc. (člen)

Date of acceptance

2016-06-23

Defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm dobře C. Otázky u obhajoby: 1) Can you explain how you back-propagate the error in your multi-task setup? There is no mathematical background in your thesis. 2) You often use the expression "events correlated to speech". Can you clearly explain what you mean and how you define such events? 3) Do you have any explanation why under-sampling of data helps?

Result of defence

práce byla úspěšně obhájena

Document licence

Standardní licenční smlouva - přístup k plnému textu bez omezení

URI

http://hdl.handle.net/11012/61800

Collections

2016

Citace PRO

Full item page