CHLOUPEK, J. Detekce základního tónu [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2014.

Posudky

Posudek vedoucího

Sysel, Petr

Zadání diplomové práce lze považovat za splněné, přesto mám k práci několik výhrad. Student sice pravidelně konzultoval s vedoucím, postupoval však málo samostatně a iniciativně. Vytvořené skripty jsou funkční pouze pro nahrávky se vzorkovacím kmitočtem 16 kHz, pro jiný kmitočet by bylo nutné změnit meze intervalu prohledávání maxima autokorelačních nebo kepstrální koeficientů. Přitom by bylo možné snadno meze intervalu vztáhnout ke vzorkovacímu kmitočtu aktuální nahrávky. Ve výsledných grafech by bylo vhodnější vynášet přímo hodnotu kmitočtu základního tónu a nikoliv pozici maxima. Vyhlazení průběhu také nezávisí na použité metodě, proto je zbytečné používat dvě funkce, jednu pro vyhlazení detekce pomocí autokorelace a druhou pro vyhlazení detekce pomocí kepstrální analýzy. Závěrečné vyhodnocení úspěšnosti obou metod je podpořeno pouze studentovým subjektivním názorem, chybí objektivní zhodnocení kolik procent segmentů bylo detekováno správně. Po formální stránce práce obsahuje minimum překlepů nebo chyb, objevují se však nepřesné formulace. Např. velikost základního tónu místo kmitočet základního tónu nebo alespoň výška základního tónu.

Navrhovaná známka
C
Body
72

Posudek oponenta

Mekyska, Jiří

Student se v práci zabývá metodami výpočtu kmitočtu základního tónu. Konkrétně se jedná o metody založené na analýze průběhu autokorelační funkce a reálného kepstra. V práci je popsána teorie tvorby řeči, vlastnosti znělých a neznělých hlásek, matematické základy obou metod a nakonec návrh a testování systému. Práce je psána stručně a přehledně, nicméně obsahuje různé faktické nepřesnosti, např. autor v závěru tvrdí, že je autokorelační metoda založena na Fourierově transformaci. U Obr. 1.5 chybí blok výpočtu modulového spektra, v seznamu literatury chybí u časopisů ročníky a čísla, atd. Nicméně největší nedostatky vidím v návrhu a realizaci celého systému. Autor navrhl metody jednoúčelově jen pro nahrávky vzorkované 16 kHz. Při prohledávání lokálních maxim v průběhu autokorelační funkce a reálného kepstra používá pevně dané intervaly. Tyto intervaly by měly být odvozeny adaptivně ze vzorkovacího kmitočtu nahrávky a zvolené nejnižší a nejvyšší možné hranice kmitočtu základního tónu. Také mi připadne zbytečně složitý přístup vyhlazování průběhu F0. Pro tyto účely by stačila rychlá filtrace mediánovým filtrem. Student mohl v práci srovnat navržené metody s jinými, založenými na inverzní filtraci, mapování spektrogramu atd. Rovněž mohl otestovat robustnost vůči úrovni bílého šumu. Samotná implementace v prostředí MATLAB je také jednoúčelová. Při zpracování nahrávek, které jsou vzorkované 8 kHz, program vykazoval chyby a nedokončil výpočty.

Navrhovaná známka
B
Body
80

Otázky

eVSKP id 73798