Klasifikace audia hlubokým učením s limitovanými zdroji dat

Harár, Pavol

Klasifikace audia hlubokým učením s limitovanými zdroji dat

Mark

P

Publisher

Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií

Abstract

Standardní postupy diagnózy dysfonie klinickým logopedem mají své nevýhody, především tu, že je tento proces velmi subjektivní. Nicméně v poslední době získala popularitu automatická objektivní analýza stavu mluvčího. Vědci úspěšně založili své metody na různých algoritmech strojového učení a ručně vytvořených příznacích. Tyto metody nejsou bohužel přímo škálovatelné na jiné poruchy hlasu, samotný proces tvorby příznaků je pracný a také náročný z hlediska financí a talentu. Na základě předchozích úspěchů může přístup založený na hlubokém učení pomoci překlenout některé problémy se škálovatelností a generalizací, nicméně překážkou je omezené množství trénovacích dat. Jedná se o společný jmenovatel téměř ve všech systémech pro automatizovanou analýzu medicínských dat. Hlavním cílem této práce je výzkum nových přístupů prediktivního modelování založeného na hlubokém učení využívající omezené sady zvukových dat, se zaměřením zejména na hodnocení patologických hlasů. Tato práce je první, která experimentuje s hlubokým učením v této oblasti, a to na dosud největší kombinované databázi dysfonických hlasů, která byla v rámci této práce vytvořena. Předkládá důkladný průzkum veřejně dostupných zdrojů dat a identifikuje jejich limitace. Popisuje návrh nových časově-frekvenčních reprezentací založených na Gaborově transformaci a představuje novou třídu chybových funkcí, které přinášejí reprezentace výstupů prospěšné pro učení. V numerických experimentech demonstruje zlepšení výkonu konvolučních neuronových sítí trénovaných na omezených zvukových datových sadách pomocí tzv. "augmented target loss function" a navržených časově-frekvenčních reprezentací "Gabor" a "Mel scattering".
Standard procedures of dysphonia diagnosis by a clinical speech therapist have their downsides, mainly because the process is very subjective. Recently, an automatic objective analysis of a speaker's condition gained in popularity. Researchers successfully based their methods on various machine learning algorithms and handcrafted features. These methods, unfortunately, are not directly scalable to other voice disorders and the process of feature engineering is laborious and thus financially and talent expensive. Based on the previous successes, a deep learning approach might help to ease the problems with scalability and generalization, but an obstacle is a limited amount of training data. This is a common denominator in almost all systems for automated medical data analysis. The main aim of this work is to research new approaches to deep-learning-based predictive modeling using limited audio data sets, focusing especially on voice pathology assessment. This work is the first to experiment with deep learning in this field and on so far the largest combined database of dysphonic voices, which was created in this work. It provides a thorough examination of publicly available data sources and identifies their limitations. It describes the design of novel time-frequency representations based on Gabor transform and it presents a new class of loss functions, that yield target representations beneficial for learning. In numerical experiments, it demonstrates improvements in the performance of convolutional neural networks trained on limited audio data sets using the augmented target loss function and the newly proposed time-frequency representations, namely Gabor and Mel scattering.

Keywords

hluboké učení, patologie hlasu, Gabor scattering, limitovaná data, zvuk, deep learning, voice pathologies, Gabor scattering, limited data, audio

Citation

HARÁR, P. Klasifikace audia hlubokým učením s limitovanými zdroji dat [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2019.

Language of document

en

Study field

Teleinformatika

Comittee

prof. Ing. Zdeněk Smékal, CSc. (předseda) prof. Ing. Ivan Baroňák, Ph.D. (člen) Ing. Jiří Přinosil, Ph.D. (člen) doc. Ing. Radim Burget, Ph.D. (člen) doc. Mgr. Pavel Rajmic, Ph.D. (člen) prof. Ing. Boris Šimák, CSc. - oponent (člen) doc. Ing. Jan Platoš, Ph.D. - oponent (člen)

Date of acceptance

2019-11-27

Defence

Doktorand prezentoval svoji doktorskou disertační práci v anglickém jazyce, práce byla dostatečně publikována na zahraničním i domácím vědeckém fóru. Posudky obou oponentů byly kladné. Jeho práce je průkopnická v oblasti použití hlubokého učení pro analýzu patologie řeči. Ing. Harár odpověděl výstižně a jasně na všechny otázky členů komise.

Result of defence

práce byla úspěšně obhájena

Document licence

Standardní licenční smlouva - přístup k plnému textu bez omezení

URI

http://hdl.handle.net/11012/184046

Collections

2019

Citace PRO

Full item page