JURÁK, P. Signálová analýza mluvených souhlásek [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2014.

Posudky

Posudek vedoucího

Sigmund, Milan

Student Petr Jurák musel samostatně nastudovat základní teorii v oblasti zpracování řečových signálů. Přehledová studie o nejčastějších metodách na automatickou detekci souhlásek je omezena na podrobný popis několika publikací, celkový přehled metod a jejich porovnání chybí. Svým rozsahem 29 stran vlastního textu je práce velmi úsporná, nehledě na to, že některé stránky obsahují jen několik málo řádků textu (str. 28) a jiné stránky opakují stejné matematické vztahy a stejný text (str. 21 a str. 25). Naopak chybí bližší popis vlastních prováděných testů, např. není jasné, jak byla určena úspěšnost klasifikace frikativ 81,5% (str. 27), navíc se uvedená hodnota rozchází s údaji v tabulce 15. V práci je řada překlepů formálních chyb. V textu jsou odkazy na obr. 13 a obr. 14 (str. 27), přičemž poslední obrázek uvedený v práci má číslo 11. Vztahy (4.4), (4.6) a (4.8) jsou z formálního hlediska nefunkční. U vztahu (2.6) není jasné, proč má dolní mez hodnotu k= –8. Za hlavní nedostatek předložené práce považuji vlastní realizaci programu na detekci souhlásek. V práci je pouze popsán princip použitého algoritmu. Vlastní program není vůbec dokumentován ani z hlediska technického (potřebný software a hardware, požadavky na vstupní signál, rychlost,…), ani z hlediska uživatelského (spuštění programu, ukládání výstupních dat,…). Student neodevzdal vytvořený program společně s textem BP do Informačního systému a při naší poslední schůzce se nepodařilo program spustit. Je proto nutné, aby program předvedl při obhajobě své práce.

Navrhovaná známka
E
Body
52

Posudek oponenta

Staněk, Miroslav

Předložená práce pana Juráka se zabývá analýzou souhlásek z řeči. Student vytvořil program, který se zabývá detekcí souhlásek a jejich následnou klasifikací ze záznamu mluvené řeči . Nejdříve bych ale rád pronesl hodnocení napsané práce. Anglický abstrakt je velmi spatně napsaný a obsahuje nesmyslný výraz "plozives". Celkově je v textu práce na tabulky a obrázky špatně odkazováno. Názvy fonémů by měly být uvedeny v lomítkách (např. /s/) a ne italicky. Obr. 1 je řádně citován, avšak jeho kvalita špatná, tudíž by bylo vhodné jej pro lepší čitelnost informací překreslit stejně jako obr. 2 a obr. 3. Popisky tabulek nejsou zformátovány dle šablony. Nerozumím proměnlivosti dálek u jednotlivých fonémů (viz str. 5). Se slovním popisem rovnice (2.1) nesouhlasím. Jak byla vypočtena úspěšnost detekce u tab. 2-6 a tab. 8-15? V těchto tabulkách je nezbytné uvést celkový počet správných segmentů jednotlivých souhlásek, aby bylo možné určit výslednou efektivitu detekce. Části 3.5.2 a 3.5.3: nerozumím počtu použitých fonémů- např. foném /f/ je pouze jeden. Také by mě zajímalo z jakého důvodu byl použit vyšší počet úseků jednotlivých fonémů (pokud tomu rozumím dobře) pro testování než pro natrénování SVM modulu, když se v praxi běžně používá poměr 3:1 a vyšší ve prospěch trénování. Strany 21 a 25 jsou téměř identické. Dle mého názoru, na obr. 7 nejsou správně zachyceny frikativy a ani dále explosivy (viz obr. 8). Byly tyto ilustrované výsledky nějakým způsobem ověřeny? Pokud ano, tak jak? Na obr. 10 je dle mého názoru také převedena chybná detekce fonému /s/. Celkově je práce na průměrné jazykové úrovni, text je místy těžce čitelný a často není zcela jasné, zda pan Jurák popisuje práci svou či někoho jiného. Práce obsahuje formální i hrubé pravopisné chyby a označení strojového učení zkratkou je nejednotné (SVM vs. SMV). Ve většině případů nejsou hodnoty na osách v obrázcích čitelné. Hlavním nedostatkem bych však označil absenci celkového počtu testovacích segmentů, díky kterým by byly na první pohled patrné získané úspěšnosti rozpoznávání fonémů. Z předložených výsledků nabývám dojmu, že reálná úspěšnost detekce je čtvrtinová oproti prezentovaným hodnotám. Navíc bych rád viděl a otestoval vytvořený program, který měl být součástí práce- z předložené BP nabývám dojmu, že pan Jurák vytvořil pouze algoritmus pro ne příliš úspěšnou detekci a analýzu mluvených souhlásek. Reference [2] je naprosto nepoužitelná. I přes výše zmíněné nedostatky pan Jurák předloženou BP dokázal, že je schopný samostatné činnosti, i když ne na tak kvalitní úrovni, a proto navrhuji hodnocení D/61b.

Navrhovaná známka
D
Body
61

Otázky

eVSKP id 73156