Aplikace metody Mean Normalized Stochastic Gradient Descent pro rozpoznávání řeči

Loading...
Thumbnail Image
Date
ORCID
Mark
A
Journal Title
Journal ISSN
Volume Title
Publisher
Vysoké učení technické v Brně. Fakulta informačních technologií
Abstract
Umělé neuronové sítě jsou v posledních letech na vzestupu. Jednou z možných optimalizačních technik je mean-normalized stochastic gradient descent, který navrhli Wiesler a spol. [1]. Tato práce dále vysvětluje a zkoumá tuto metodu na problému klasifikace fonémů. Ne všechny závěry Wieslera a spol. byly potvrzeny. Mean-normalized SGD je vhodné použít pouze pokud je síť dostatečně velká, nepříliš hluboká a pracuje-li se sigmoidou jako nelineárním prvkem. V ostatních případech mean-normalized SGD mírně zhoršuje výkon neuronové sítě. Proto nemůže být doporučena jako obecná optimalizační technika. [1] Simon Wiesler, Alexander Richard, Ralf Schluter, and Hermann Ney. Mean-normalized stochastic gradient for large-scale deep learning. In Acoustics, Speech and Signal Processing (ICASSP), 2014 IEEE International Conference on, pages 180{184. IEEE, 2014.
The artificial neural networks are on the rise in recent years. One possible optimization technique is mean-normalized stochastic gradient descent recently proposes by Wiesler et al. [1]. This work further explains and examines this method on phoneme classification task. Not all findings of Wiesler et al. can be confirmed. The mean-normalized SGD is helpful only if the network is large enough (but not too deep) and if the sigmoid non-linear function is used. Otherwise, the mean-normalized SGD slightly impairs the network performance and therefore cannot be recommended as a general optimization technique. [1] Simon Wiesler, Alexander Richard, Ralf Schluter, and Hermann Ney. Mean-normalized stochastic gradient for large-scale deep learning. In Acoustics, Speech and Signal Processing (ICASSP), 2014 IEEE International Conference on, pages 180{184. IEEE, 2014.
Description
Citation
KLUSÁČEK, J. Aplikace metody Mean Normalized Stochastic Gradient Descent pro rozpoznávání řeči [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2015.
Document type
Document version
Date of access to the full text
Language of document
en
Study field
Informační technologie
Comittee
doc. Dr. Ing. Jan Černocký (předseda) doc. Ing. Zdeněk Kotásek, CSc. (místopředseda) doc. Ing. Lukáš Burget, Ph.D. (člen) Ing. Radek Kočí, Ph.D. (člen) Ing. Zbyněk Křivka, Ph.D. (člen)
Date of acceptance
2015-06-17
Defence
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A. Otázky u obhajoby: Má smysl vyhodnocovat generalizaci (validační chybu) při porovnávání různých optimalizačních algoritmů? Chovají se modely trénované pomocí mean normalized SGD odlišně v nějakém ohledu, který by měl mít vliv na generalizaci? V 4.2.3 píšete, že průměrné hodnoty aktivací neuronů s tanh aktivačními funkcemi jsou pravděpodobně blízké nule. Můžete toto tvrzení ověřit? Jak si vysvětlujete, že bottleneck sítě se sigmoidami se trénují hůře než sítě s tanh? Pozoroval jste nějaký rozdíl (například v hodnotách gradientů), který by tento rozdíl vysvětlil? 
Result of defence
práce byla úspěšně obhájena
Document licence
Standardní licenční smlouva - přístup k plnému textu bez omezení
DOI
Collections
Citace PRO