• čeština
    • English
    • русский
    • Deutsch
    • français
    • polski
    • українська
  • English 
    • čeština
    • English
    • русский
    • Deutsch
    • français
    • polski
    • українська
  • Login
View Item 
  •   Repository Home
  • Závěrečné práce
  • diplomové práce
  • Fakulta informačních technologií
  • 2016
  • View Item
  •   Repository Home
  • Závěrečné práce
  • diplomové práce
  • Fakulta informačních technologií
  • 2016
  • View Item
JavaScript is disabled for your browser. Some features of this site may not work without it.

Identifikace hudby, řeči, křiku, zpěvu v audio (video) záznamu

Music, Speech, Crying, Singing Detection in Audio (Video)

Thumbnail
View/Open
review_96249.html (1.463Kb)
final-thesis.pdf (1.817Mb)
Posudek-Vedouci prace-17411_v.pdf (85.92Kb)
Posudek-Oponent prace-17411_o.pdf (88.57Kb)
Author
Danko, Michal
Advisor
Szőke, Igor
Referee
Malenovský, Vladimír
Grade
C
Altmetrics
Metadata
Show full item record
Abstract
Tato práce navazuje na trend posledních desetiletí ve využívaní neuronových sítí za účelem odhalení řeči v zašuměných datech. Text začíná základními poznatky o probíraných tématech, jako jsou audio příznaky, strojové učení a neuronové sítě. Síťové parametry jsou zkoumány s cílem poskytnout nejvhodnější zázemí pro experimenty. Hlavní úkol experimentů je sledovat vliv různých zvukových událostí na detekci řeči na malé a různorodé databáze. Přičemž se ukázalo, že nejvýhodnější jsou zvukové události v korelaci s řečí. Kromě toho, přesnost akustických událostí, dříve použita pouze jako doplněk k přesnosti řeči, je také součástí experimentování. Experiment zkoumání datových sad rozšiřených o více spravedlivě rozděleny data ukázal, že samotné rozšiření nezaručuje zlepšení. Na závěr, poslední experiment demonstruje, že síti se skutečně podařilo naučit, jak předpovědět hlasové aktivity v obou případech čistých i zašuměných dat.
 
This thesis follows the trend of last decades in using neural networks in order to detect speech in noisy data. The text begins with basic knowledge about discussed topics, such as audio features, machine learning and neural networks. The network parameters are examined in order to provide the most suitable background for the experiments. The main focus of the experiments is to observe the influence of various sound events on the speech detection on a small, diverse database. Where the sound events correlated to the speech proved to be the most beneficial. In addition, the accuracy of the acoustic events, previously used only as a supplement to the speech, is also a part of experimentation. The experiment of examining the extending of the datasets by more fairly distributed data shows that it doesn't guarantee an improvement. And finally, the last experiment demonstrates that the network indeed succeeded in learning how to predict voice activity in both clean and noisy data.
 
Keywords
Neurální sítě, řeč, šum, detekce zvukových událostí, detekce hlasové aktivity, Theano, víceúčelové sítě, Neural networks, speech, noise, acoustic event detection, voice activity detection, Theano, multi-task networks
Language
čeština (Czech)
Study brunch
Informační systémy
Composition of Committee
doc. Dr. Ing. Dušan Kolář (předseda) prof. Ing. Tomáš Hruška, CSc. (místopředseda) Ing. Miroslav Balík, Ph.D. (člen) Ing. Vladimír Bartík, Ph.D. (člen) doc. Mgr. Adam Rogalewicz, Ph.D. (člen) doc. Ing. Jaroslav Zendulka, CSc. (člen)
Date of defence
2016-06-23
Process of defence
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm dobře C. Otázky u obhajoby: 1) Can you explain how you back-propagate the error in your multi-task setup? There is no mathematical background in your thesis. 2) You often use the expression "events correlated to speech". Can you clearly explain what you mean and how you define such events? 3) Do you have any explanation why under-sampling of data helps?
Result of the defence
práce byla úspěšně obhájena
Persistent identifier
http://hdl.handle.net/11012/61800
Source
DANKO, M. Identifikace hudby, řeči, křiku, zpěvu v audio (video) záznamu [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2016.
Collections
  • 2016 [190]
Citace PRO

Portal of libraries | Central library on Facebook
DSpace software copyright © 2002-2015  DuraSpace
Contact Us | Send Feedback | Theme by @mire NV
 

 

Browse

All of repositoryCommunities & CollectionsBy Issue DateAuthorsTitlesSubjectsThis CollectionBy Issue DateAuthorsTitlesSubjects

My Account

LoginRegister

Statistics

View Usage Statistics

Portal of libraries | Central library on Facebook
DSpace software copyright © 2002-2015  DuraSpace
Contact Us | Send Feedback | Theme by @mire NV