MEKYSKA, J. Lineární predikční a kepstrální syntéza řečového signálu v systému TTS [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2008.

Posudky

Posudek vedoucího

Smékal, Zdeněk

Student bezezbytku splnil zadání, práce má velmi dobrou úroveň. Pravidelně konzultoval výsledky své práce. Bakalářská práce má velmi dobrou grafickou, jazykovou i formální úroveň. Student pracoval s literaturou velmi dobře.

Dílčí hodnocení
Kritérium Známka Body Slovní hodnocení
Splnění zadání A 50/50
Aktivita během řešení a zpracování práce (práce s literaturou, využívání konzultací, atd.) A 20/20
Formální zpracování práce A 20/20
Využití literatury A 10/10
Navrhovaná známka
A
Body
100

Posudek oponenta

Stejskal, Vojtěch

Jádro práce studenta je ve vytvoření dvou programů v prostředí Matlab. První slouží k analýze nahrávek řeči, jejich manuální segmentaci a tvorbě databáze řečových prvků reprezentovaných jejich délkou, odhadem periody základního tónu řeči a charakteristikami (LPC, kepstrální). S jednotlivými prvky řeči je zároveň ukládáno pohlaví mluvčího. Druhý program slouží k syntéze libovolného textu. Ten je foneticky přepsán tak, aby odpovídal vytvořené databázi řečových prvků. Pomocí konkatenenční syntézy je vytvořena syntetická řeč z jednotlivých prvků v databázi a jejich charakteristik. Základní parametry řeči nelze uživatelsky měnit jsou určeny obsahem databáze. Neznělé hlásky jsou buzeny náhodně generovaným signálem, znělé periodickým signálem s periodou uloženou v databázi. Metodu určování znělosti řeči založenou primárně na energii a teprve poté na počtu průchodů signálu nulovou hodnotou nepovažuji příliš za vhodnou a efektivní (energie by šla nahradit výpočtem základního tónu řeči). Též přepisování jednotlivých charakteristik prvků řeči při ukládání do databáze nepovažuji za šťastné. Vhodnější by bylo vytváření univerzálnějších středních hodnot ze všech uložených prvků stejného sémantického významu s váhováním jejich energií, tak aby databáze získala universální a jednotný charakter. V samotném programu analýzy by bylo vhodné doplnit zoom, tak aby bylo možné spolehlivě vybírat jednotlivé řečové úseky v dlouhých nahrávkách a rozšířit popis osy i o milisekundy. Většina těchto připomínek by se dala ohodnotit spíše jako návrh k dosažení větší srozumitelnosti syntetické řeči a snadnější tvorby databází. Samotné zadání práce bylo náročné a kladlo velké nároky na znalosti a schopnosti studenta. Jejich splněním prokázal velmi dobré kvality a příslib velmi dobré budoucí práce. Doporučuji k obhajobě.

Dílčí hodnocení
Kritérium Známka Body Slovní hodnocení
Splnění požadavků zadání B 16/20 Aplikace vytvořená studentem splňuje požadavky kladené v zadání až na možnost syntézy řeči z univerzálního mluvčího se změnou jednotlivých parametrů tak, abychom byli schopní generovat ruzně emocionálně zabarvený mužský, ženský, dětský hlas. Jednotlivé parametry segmentů řeči (základní tón, délka) jsou ukldádány do databáze již při její tvorbě bez možnosti uživatelské editace.
Odborná úroveň práce A 49/50 Práce je na vysoké odborné úrovni. Do budoucna by bylo vhodné některé metody nahradit efektivnějšími. To ale nemění fakt, že práce je příslibem vynikajícího pokračovaní studenta.
Interpretace výsledků a jejich diskuse B 16/20 V popisu programu bych uvítal podrobnější diskusi nad funkcí jednotlivých funkčních bloků (zdrojových kódů), která by takto zpřehlednila funkci jak syntezátoru, tak i analyzátoru. Takto je čtenář nucen pronikat do zdrojového kódu.
Formální zpracování práce A 10/10 K formálnímu zpracování nemám výhrad.
Navrhovaná známka
A
Body
91

Otázky

eVSKP id 14148