Posudky závěrečné kvalifikační práce

Posudek vedoucího

Sigmund, Milan

Student Jan Malucha se věnoval řešení DP průběžně, přicházel s podněty a konzultoval dílčí etapy s výsledky. Musel sám nastudovat základní teorii zpracování řečových signálů. Při vytváření rešerše navázal řadu nových kontaktů s odborníky na fonetiku. Zadání práce je vcelku splněno. Vytvořený program v MATLABu je funkční a z hlediska uživatele přehledný a přívětivý. V odevzdaném balíku programu jsou na testování k dispozici jen 2 slova, přitom autor používal v provedených testech měření výslovnosti u 10 různých slov (viz odstavec 4.4.3). Pro uvolnění programu k praktickému použití bude potřeba ještě zvýšit přesnost a robustnost některých výpočtů (např. základního kmitočtu hlasu) a zaručit univerzálnost instalace u běžných uživatelů. Rovněž bude vhodné slovní hlášení generovaná programem pro trénující uživatele více zaměřit na doporučení ohledně správného přízvuku a znělosti. Zde bude nutné čerpat z prvních zkušeností uživatelů, majících různé jazykové znalosti angličtiny a různé dovednosti s výpočetní technikou. Předpokládám, že student bude pokračovat ve vývoji programu ještě na počátku doktorského studia, do kterého se přihlásil. V textu práce se vyskytují mírné nepřesnosti v terminologii, například: „Řečový signál je považován za ergodický a časově invariantní…“ (str. 33); „…příkladem stacionárního signálu může být funkce o třech harmonických komponentech…“ (str. 34); a rovněž několik drobných formálních nedostatků, například: - v názvu Obr. 4.18 je uveden odkaz na [23], správně má být [33]; - v kapitole 4 jsou celkem 3 nečíslované tabulky, které nejsou uvedeny ani v Seznamu tabulek, apod. Student se věnoval problematice počítačového hodnocení výslovnosti nad rámec své DP. V listopadu 2021 prezentoval dílčí výsledky na mezinárodní konferenci TELFOR v Bělehradě (online). V květnu 2022 poslal příspěvek obsahující finální výsledky na mezinárodní konferenci Telecommunications and Signal Processing. Kromě toho se zúčastnil také studentské soutěže EEICT 2022, kde obsadil 2. místo.

Navrhovaná známka: A

Body: 93

Posudek oponenta

Kohl,, Ing, Zdeněk

Diplomová práce sestává dle zadání ze dvou relativně samostatných částí: rešerše významných publikací a současně používaných softwarových prostředků pro podporu a kontrolu správné výslovnosti, autonomní program pro ověření algoritmů na výpočet spektrogramů, znělosti, základního tónu, formantových kmitočtů a na určování hranic mezi fonetickými úseky řeči. Rešerše stavu je psána čtivou formou srozumitelnou i laikovi. Popisuje základní metody počítačové podpory výuky jazyka, historii vzniku i současný stav. Rozebírá ve stručnosti pět vybraných počítačových programů z hlediska jejich principu činnosti a způsobu hodnocení řečníka a pokouší se o jejich vzájemné porovnání. Vyzdvihuje základní výhody a nevýhody. Tato část by si v některých směrech zasloužila více podrobností. Dále následuje poměrně podrobný popis jazyka jako komunikačního nástroje, dále popis základních metod číslicového zpracování řeči z hledisek podstatných pro analýzu a hodnocení správné výslovnosti. V rozborech jsou odkazy na příslušné vědní disciplíny, jakož i vybrané publikace, což odpovídá zadání práce. Druhou částí práce je vlastní program pro kontrolu výslovnosti včetně písemné části, kde jsou popsány základní procedury, které program používá. Program je tvořen v prostředí MATLAB a je k dispozici jak jeho zdrojový kód, tak i samostatně spustitelná verze. Pozitivně hodnotím zejména to, že diplomant vytvořil fungující program jako alternativu jiných existujících systémů. Moje hlavní výhrady jsou tohoto charakteru: Ve slovníku programu jsou implementována jen dvě slova. Ani jedno z nich netestuje hlásku „th“, ve které Češi (hlavně starší generace) velmi často chybují. Program používá jako kritérium znělosti hlásky relativní energii. Toto kritérium považuji za zjednodušující a nespolehlivé. Doporučoval bych do budoucna raději spektrální rozbor. Program nehodnotí záměnu znělých a neznělých hlásek. V tomto Češi rovněž značně chybují (například „d“ a „t“ na konci slova). Dále by se měla v budoucnu hodnotit i sousloví (například předložkové vazby jako „in the afternoon“, „move in“); zde Češi chybují v návaznosti. Ve zdrojovém kódu postrádám komentáře; alespoň na začátku každého podprogramu by měl být základní popis. Bez něj je v budoucnu obtížné navázat na rozdělanou práci mnohdy i pro samotného autora. Textový výstup v úzkém okně není příliš praktický (po zaplnění okna je nutno ručně rolovat), textové procentuální hodnocení nedává řečníkovi příliš jasnou zpětnou vazbu. Z hlediska designu a spolehlivosti lze dodanou verzi klasifikovat spíše jako prototyp, což přiznává i autor. Program je značně nestabilní, často se tu opakují chyby typu „Output argument … not assigned…“, „Index exceeds …“ a podobně, které svědčí o nedostatečně ošetřených alternativách běhu programu. Značně omezující je i to, že program vyžaduje MATLAB runtime konkrétní verze (9.9). Rovněž koncepce, kdy se slovo volí z rolovacího menu a kdy každé testované slovo má svůj vlastní podprogram, se mi nezdá příliš šťastná; je použitelná maximálně pro jednotky až desítky slov. Písemná část práce z hlediska struktury a grafické úpravy práce odpovídá současným standardům. Nepodstatné chyby se týkají zejména chybějících odkazů u některých evidentně převzatých obrázků (obr. 3.1, 3.2). Dále se na několika místech objevují minoritní gramatické chyby, jako je záměna „jenž“ – „jež“, nesoulad pádu podstatného a přídavného jména (str. 26 „věnující“ má být „věnujících“, str. 33 „produkující“ má být „produkujícím“ a podobně.). Z odborného hlediska vidím jisté nedostatky v základní teorii – například diplomant tvrdí, že signál může být časově invariantní, anglický pojem all-pole filter překládá jako „celopólový filtr“ a podobně.

Navrhovaná známka: A

Body: 91

Otázky

1. Str. 35 uvádí „pro účely práce je využito obdélníkové okno“ – proč zrovna obdélníkové?
2. Proč je do budoucna kladen důraz na real time processing (str. 62), když je běžný postup, že uživatel nejprve vysloví frázi a pak studuje výsledky?