MARKO, J. Zpracování řečových signálů v časové oblasti [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2014.

Posudky

Posudek vedoucího

Sigmund, Milan

Student měl možnost věnovat se vypracování své bakalářské práce celkem 2 roky a očekával bych tedy její nadprůměrnou kvalitu. Odevzdaná práce je však na mezi přijatelnosti jako bakalářská práce. Počáteční kapitola nazvaná Rešerše… je omezena na zevrubný popis několika málo publikací, celkový přehled metod a jejich porovnání chybí. Žádná z uvedených publikací není zaměřena na určování znělosti řečového signálů. Matematický aparát uvedený v práci je omezen na několik základních vztahů v obecné podobě převzatých z doporučené literatury bez přizpůsobení pro vlastní výpočty. Není například jasné, jak autor určuje jednotlivé periody signálu potřebné pro výpočet jitteru. Vytvořený program není v práci dostatečně popsaný. Student měl vytvořit autonomní program, odevzdal však jen jeden m-file, který vyžaduje nastavovat přístupové cesty. Pro testování programu vytvořil potřebnou databázi vlastních nahrávek. Prezentované výsledky jitteru 10 Hz nejsou příliš věrohodné. Celá práce je napsaná slovensky, pouze dva obrázky mají z neznámého důvodu anglický popis (obr. 4.1 a obr. 4.2). Číslování obrázků je místy chaotické a nesouhlasí s úvodním seznamem obrázků. V kapitole 5 je následující řazení obrázků obr. 1.2, obr. 3.4, obr. 5.6 a obr. 7.5. Podobně v kapitole 6 jsou obr. 1.2, obr. 3.4, obr. 5.6 a obr. 7.6. Co vedlo autora k této tajemné řadě?

Navrhovaná známka
E
Body
50

Posudek oponenta

Staněk, Miroslav

Předložená práce pana Márka se zabývá zpracováním řečových signálů v časové oblasti. Student se měl nejprve seznámit s problematikou zpracování řeči pomocí dostupných publikací. Bohužel, provedená rešerše obsahuje POUZE 5 publikací, z nichž většina ani není řádně citována- resp. na konci každé příslušné subsekce, obsahující stručné a nikterak zvlášť užitečné informace, je uveden link, kde lze danou problematiku najit. Myslím si, že student nepochopil pravý význam literární rešerše ani jak ji zpracovat. V obou případech měl navštívit vedoucího své práce, který by mu určitě danou problematiku vysvětlil během konzultací (omlouvám se, pokud tak pan Márko udělal). V případě dobře zpracovaného průzkumu literatury by bylo možné implementovat více, či více kvalitnější metody pro zkoumání kýžených parametrů řeči. Názvy podsekcí 2.1 - 2.5 považuji za nevhodně zvolené (zejména 2.2!). Třetí sekce prezentuje tvorbu řeči- i k této sekci mám několik připomínek. Některé obrázky jsou ve špatné kvalitě a bylo by vhodné je překreslit, i když jsou řádně citované. PRVNÍ obrázek 3.4 (záměrně uvádím přívlastek první) není odkazován v textu. Hodnoty uvedené v obr. 3.5 jsou nečitelné. V části 3.2 se pan Márko zmiňuje o formantových frekvencích, ale nikde není vysvětlena jejich definice a význam, které by zasvětily i laického čtenáře do této problematiky. Čtvrtá část se orientuje na metody zpracování řeči. S některými tvrzeními v předmluvě této sekce nesouhlasím. Výhrady mám hlavně k zformátování odrážkového seznamu klasifikující metody. Text v subsekci 4.2 obsahuje nepříliš šťastné formulace, zcela mu nerozumím a s některými formulacemi nesouhlasím. Horizontální osu u obr. 4.1 a 4.2 by bylo vhodnější zobrazit přímo v jednotkách frekvence [Hz]. V části 4.2.2- neznám znělé samohlásky. Obr. 4.7 a 4.8 jsou tedy víceméně nic neříkající, neboť by zde bylo vhodnější zobrazit kýžené průběhy pro znělé ekvivalenty dříve použitých fonémů /c/ a /s/. Část 4.2.4 by bylo vhodné umístit na nový list. Část 5 popisuje realizaci aplikace, kterou pan Márko vytvořil v programovacím prostředí MATLAB. Obr. 5.1 nevidím, ale je zde vložen obr. 1.2, na který není v textu nijak odkazováno. Bylo by také vhodné, aby v PRVNÍM obr. 1.2 byl jednotný rozsah pro vertikální osu. Dále je vložen DRUHÝ obr. 3.4. Obr. 7.5 není v práci uváděn, obr. 5.4 nemohu najít. Dále je v práci znázorněn ještě TŘETÍ obr. 3.4 a DRUHÝ obr. 1.2, které jsou opět doprovázeny chybným uvedením v textu a chaotickým číslováním následujících obrázků. Výsledky uvedené v tab. 3, tab. 4 a tab. 5 jsou zavádějící hlavně především díky velké hodnotě sm. odchylky, která místy dosahuje až 50% průměru a velkými rozdíly mezi jednotlivými použitými metodami, což vede k zamyšlení se nad jejich relevantností. V jednotlivých histogramech by také bylo, dle mého názoru, vhodnější zobrazit hodnoty jitteru v absolutní hodnotě z důvodu názornější prezentace rozložení obdržených výsledků. K vytvořené aplikaci mám také několik výhrad- vadí mi chaotičnost prezentovaných výsledků, neomezení nabídky typu souboru při jeho výběru, když lze analyzovat pouze formát *.wav, zacyklenost programu v případě, když zvolím, že chci analyzovat další soubor a pak své rozhodnutí změním, pád programu v případě chybné prahové detekce atd. Jak již bylo zmíněno, formální úroveň práce je špatná, popisky obrázků nejsou ve formátu šablony, o formátování závěru se raději nebudu zmiňovat a seznam literatury obsahuje dva typy fontů a nechce se mi věřit, že jej může někdo v takovémto stavu odevzdat ve finální verzi BP. Samotná práce s literaturou je žalostná. Anglický abstrakt obsahuje nesmyslná slovní spojení, prohlášení o shodě a poděkování by nemělo být v češtině, když je celá práce kompletně napsána v SK. Zdrojový kód programu není zoptimalizován a neobsahuje nutná opatření pro jeho bezproblémový chod. Je tedy škoda, že pan Márko nepracoval více na své BP, neboť z tohoto zajímavého tématu by bylo možné vytěžit mnohem více. Zhodnocení předložené práce je o to smutnější v případě uvědomění si, že pan Márko měl na své BP pracovat celkem 2 roky. I přes výše uvedené nedostatky předloženou práci doporučuji k obhajobě a v případě velmi kvalitní obhajoby navrhuji udělit panu Márkovi hodnocení E/50b.

Navrhovaná známka
E
Body
50

Otázky

eVSKP id 73631