• čeština
    • English
    • русский
    • Deutsch
    • français
    • polski
    • українська
  • English 
    • čeština
    • English
    • русский
    • Deutsch
    • français
    • polski
    • українська
  • Login
View Item 
  •   Repository Home
  • Závěrečné práce
  • bakalářské práce
  • Fakulta informačních technologií
  • 2022
  • View Item
  •   Repository Home
  • Závěrečné práce
  • bakalářské práce
  • Fakulta informačních technologií
  • 2022
  • View Item
JavaScript is disabled for your browser. Some features of this site may not work without it.

Odhad obličeje z řečového signálu

Learning the Face Behind a Voice

Thumbnail
View/Open
review_145225.html (1.436Kb)
final-thesis.pdf (7.193Mb)
Posudek-Vedouci prace-24895_v.pdf (85.83Kb)
Posudek-Oponent prace-24895_o.pdf (97.24Kb)
Author
Krušina, Josef
Advisor
Plchot, Oldřich
Referee
Matějka, Pavel
Grade
C
Altmetrics
Metadata
Show full item record
Abstract
Tato práce řeší problém mapování fixních reprezentací (embeddingů) řečového signálu na embeddingy obličejů a následné generování obličeje z namapovaného embeddingu pomocí generativní adverzní sítě (GAN) naučené na generování obličejů. GAN jsou druhem neuronových sítí, které umí generovat data podobná těm, na kterých se trénovala. Architektura navrženého systému je založena na čtyřech komponentách: na extraktoru embeddingů obličeje, na extraktoru embeddingů hlasu, na algoritmu nad GAN, který umí generovat obličej z embeddingu obličeje a na mnou implementované mapovací síti určené k mapování embeddingu hlasu na embedding obličeje. Jako extraktory embeddingů jsou převzaty předtrénované neuronové sítě FaceNet a SpeechBrain. Pro zpětné generování obličeje je převzatý model používající předtrénovaný StyleGAN2. Přínos této práce je ten, že dovoluje extrapolovat obličej pouze z audio signálu.
 
This work addresses the problem of mapping fixed representations (embeddings) of a speech signal to face embeddings and then generating a face from the mapped embedding using a generative adversarial network (GAN) that was trained for face generation. GANs are a type of neural networks that can generate data similar to the data they were trained on. The architecture of the proposed system is based on four components: a face embedding extractor, a voice embedding extractor, an algorithm on top of a GAN that can generate a face from a face embedding, and my mapping network used to map a voice embedding to a face embedding. The pre-trained neural networks FaceNet and SpeechBrain are adopted as embedding extractors. A model that uses a pre-trained StyleGAN2 is adopted for backward face generation. The contribution of this work is that it allows the extrapolation of a face from audio signal only.
 
Keywords
Extrakce příznaků, Mapování, Embedding, FaceNet, SpeechBrain, StyleGAN2, Feature extraction, Mapping, Embedding, FaceNet, SpeechBrain, StyleGAN2
Language
čeština (Czech)
Study brunch
Informační technologie
Composition of Committee
prof. Dr. Ing. Jan Černocký (předseda) doc. Ing. Jiří Jaroš, Ph.D. (místopředseda) Ing. Vladimír Bartík, Ph.D. (člen) doc. RNDr. Milan Češka, Ph.D. (člen) Ing. Filip Orság, Ph.D. (člen)
Date of defence
2022-06-15
Process of defence
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm C. Otázky u obhajoby: Jak moc je Vaše mapovací NN náchylná k přetrénování? S jakými nároky (i časovými) je potřeba počítat při trénování modelů pro aplikaci a jak dlouho trvá testovací fáze pro jednoho mluvčího? Kdybyste pracoval na této práci ještě rok, co by byly další kroky, kterými byste zlepšil systém?
Result of the defence
práce byla úspěšně obhájena
Persistent identifier
http://hdl.handle.net/11012/207352
Source
KRUŠINA, J. Odhad obličeje z řečového signálu [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2022.
Collections
  • 2022 [309]
Citace PRO

Portal of libraries | Central library on Facebook
DSpace software copyright © 2002-2015  DuraSpace
Contact Us | Send Feedback | Theme by @mire NV
 

 

Browse

All of repositoryCommunities & CollectionsBy Issue DateAuthorsTitlesSubjectsThis CollectionBy Issue DateAuthorsTitlesSubjects

My Account

LoginRegister

Statistics

View Usage Statistics

Portal of libraries | Central library on Facebook
DSpace software copyright © 2002-2015  DuraSpace
Contact Us | Send Feedback | Theme by @mire NV