Klasifikace audia hlubokým učením s limitovanými zdroji dat

but.committeeprof. Ing. Zdeněk Smékal, CSc. (předseda) prof. Ing. Ivan Baroňák, Ph.D. (člen) Ing. Jiří Přinosil, Ph.D. (člen) doc. Ing. Radim Burget, Ph.D. (člen) doc. Mgr. Pavel Rajmic, Ph.D. (člen) prof. Ing. Boris Šimák, CSc. - oponent (člen) doc. Ing. Jan Platoš, Ph.D. - oponent (člen)cs
but.defenceDoktorand prezentoval svoji doktorskou disertační práci v anglickém jazyce, práce byla dostatečně publikována na zahraničním i domácím vědeckém fóru. Posudky obou oponentů byly kladné. Jeho práce je průkopnická v oblasti použití hlubokého učení pro analýzu patologie řeči. Ing. Harár odpověděl výstižně a jasně na všechny otázky členů komise.cs
but.jazykangličtina (English)
but.programElektrotechnika a komunikační technologiecs
but.resultpráce byla úspěšně obhájenacs
dc.contributor.advisorMekyska, Jiříen
dc.contributor.authorHarár, Pavolen
dc.contributor.refereePlatoš,, Janen
dc.contributor.refereeŠimák, Borisen
dc.date.accessioned2019-11-27T20:28:43Z
dc.date.available2019-11-27T20:28:43Z
dc.date.created2019cs
dc.description.abstractStandardní postupy diagnózy dysfonie klinickým logopedem mají své nevýhody, především tu, že je tento proces velmi subjektivní. Nicméně v poslední době získala popularitu automatická objektivní analýza stavu mluvčího. Vědci úspěšně založili své metody na různých algoritmech strojového učení a ručně vytvořených příznacích. Tyto metody nejsou bohužel přímo škálovatelné na jiné poruchy hlasu, samotný proces tvorby příznaků je pracný a také náročný z hlediska financí a talentu. Na základě předchozích úspěchů může přístup založený na hlubokém učení pomoci překlenout některé problémy se škálovatelností a generalizací, nicméně překážkou je omezené množství trénovacích dat. Jedná se o společný jmenovatel téměř ve všech systémech pro automatizovanou analýzu medicínských dat. Hlavním cílem této práce je výzkum nových přístupů prediktivního modelování založeného na hlubokém učení využívající omezené sady zvukových dat, se zaměřením zejména na hodnocení patologických hlasů. Tato práce je první, která experimentuje s hlubokým učením v této oblasti, a to na dosud největší kombinované databázi dysfonických hlasů, která byla v rámci této práce vytvořena. Předkládá důkladný průzkum veřejně dostupných zdrojů dat a identifikuje jejich limitace. Popisuje návrh nových časově-frekvenčních reprezentací založených na Gaborově transformaci a představuje novou třídu chybových funkcí, které přinášejí reprezentace výstupů prospěšné pro učení. V numerických experimentech demonstruje zlepšení výkonu konvolučních neuronových sítí trénovaných na omezených zvukových datových sadách pomocí tzv. "augmented target loss function" a navržených časově-frekvenčních reprezentací "Gabor" a "Mel scattering".en
dc.description.abstractStandard procedures of dysphonia diagnosis by a clinical speech therapist have their downsides, mainly because the process is very subjective. Recently, an automatic objective analysis of a speaker's condition gained in popularity. Researchers successfully based their methods on various machine learning algorithms and handcrafted features. These methods, unfortunately, are not directly scalable to other voice disorders and the process of feature engineering is laborious and thus financially and talent expensive. Based on the previous successes, a deep learning approach might help to ease the problems with scalability and generalization, but an obstacle is a limited amount of training data. This is a common denominator in almost all systems for automated medical data analysis. The main aim of this work is to research new approaches to deep-learning-based predictive modeling using limited audio data sets, focusing especially on voice pathology assessment. This work is the first to experiment with deep learning in this field and on so far the largest combined database of dysphonic voices, which was created in this work. It provides a thorough examination of publicly available data sources and identifies their limitations. It describes the design of novel time-frequency representations based on Gabor transform and it presents a new class of loss functions, that yield target representations beneficial for learning. In numerical experiments, it demonstrates improvements in the performance of convolutional neural networks trained on limited audio data sets using the augmented target loss function and the newly proposed time-frequency representations, namely Gabor and Mel scattering.cs
dc.description.markPcs
dc.identifier.citationHARÁR, P. Klasifikace audia hlubokým učením s limitovanými zdroji dat [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2019.cs
dc.identifier.other122407cs
dc.identifier.urihttp://hdl.handle.net/11012/184046
dc.language.isoencs
dc.publisherVysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologiícs
dc.rightsStandardní licenční smlouva - přístup k plnému textu bez omezenícs
dc.subjecthluboké učeníen
dc.subjectpatologie hlasuen
dc.subjectGabor scatteringen
dc.subjectlimitovaná dataen
dc.subjectzvuken
dc.subjectdeep learningcs
dc.subjectvoice pathologiescs
dc.subjectGabor scatteringcs
dc.subjectlimited datacs
dc.subjectaudiocs
dc.titleKlasifikace audia hlubokým učením s limitovanými zdroji daten
dc.title.alternativeAudio Classification with Deep Learning on Limited Data Setscs
dc.typeTextcs
dc.type.driverdoctoralThesisen
dc.type.evskpdizertační prácecs
dcterms.dateAccepted2019-11-27cs
dcterms.modified2019-11-27-14:36:12cs
eprints.affiliatedInstitution.facultyFakulta elektrotechniky a komunikačních technologiícs
sync.item.dbid122407en
sync.item.dbtypeZPen
sync.item.insts2021.11.22 23:18:17en
sync.item.modts2021.11.22 22:07:26en
thesis.disciplineTeleinformatikacs
thesis.grantorVysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. Ústav telekomunikacícs
thesis.levelDoktorskýcs
thesis.namePh.D.cs
Files
Original bundle
Now showing 1 - 5 of 5
Loading...
Thumbnail Image
Name:
final-thesis.pdf
Size:
6.59 MB
Format:
Adobe Portable Document Format
Description:
final-thesis.pdf
Loading...
Thumbnail Image
Name:
thesis-1.pdf
Size:
386.73 KB
Format:
Adobe Portable Document Format
Description:
thesis-1.pdf
Loading...
Thumbnail Image
Name:
Posudek-Oponent prace-review_doc. Platos_DP Harar.pdf
Size:
146.99 KB
Format:
Adobe Portable Document Format
Description:
Posudek-Oponent prace-review_doc. Platos_DP Harar.pdf
Loading...
Thumbnail Image
Name:
Posudek-Oponent prace-posudek oponenta prof. Simak_DP Ing. Harar.pdf
Size:
211.47 KB
Format:
Adobe Portable Document Format
Description:
Posudek-Oponent prace-posudek oponenta prof. Simak_DP Ing. Harar.pdf
Loading...
Thumbnail Image
Name:
review_122407.html
Size:
6.09 KB
Format:
Hypertext Markup Language
Description:
review_122407.html
Collections