NEZVAL, J. Odhad přesnosti řečových technologií na základě měření signálové kvality a obsahové bohatosti audia [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2020.

Posudky

Posudek vedoucího

Schwarz, Petr

Cílem práce bylo navrhnout systém, který na základě měření signálové kvality a obsahové bohatosti nahrávek mluvené řeči dokáže predikovat přesnost automatického přepisu nahrávek rozpoznávačem řeči. Systém může výrazným způsobem ušetřit náklady za hardware a zpřesnit výsledky v systémech pro analýzu velkých archívu řečových nahrávek. Práce má tedy velký praktický význam. Všechny body zadaní byly splněny. Technická zpráva obsahuje všechny potřebné informace pro úvod do problematiky, pochopení cíle a náplně práce a pro zhodnocení praktické aplikovatelnosti zvolených metod. Návaznost textu je logická a rozsah odpovídající. Formální a jazyková stránka práce je na rozumné úrovni. Student aktivně pracoval s literaturou, potřebné zdroje si dokázal sám nalézt a nastudovat. Často šel do většího detailu, než jsem i předpokládal. Výsledky jsou plně aplikovatelné v praxi a experimentální kód funkční. Student práci pravidelně konzultoval v předem stanovených intervalech, na všechny konzultace byl velmi dobře připraven, a konzultace byly věcné. Je trochu škoda, že zřejmě díky časovému presu při dokončování práce nebylo věnováno více pozornosti rozboru výsledků a závěrečné diskuzi. Například pro praktické nasazení systému je důležitý způsob sběru a přípravy trénovacích dat pro prediktor tak, aby dobře modeloval různé způsoby degradace řečového signálu. Toto u mě přímo evokovalo očekávání diskuze v závěru, která ale chybí. Tyto nedostatky pak degradují jinak vynikající práci. Práci hodnotím jako velmi dobrou s 85 body (B).

Navrhovaná známka
B
Body
85

Posudek oponenta

Smital, Lukáš

Předložená diplomová práce studenta Jiřího Nezvala se věnuje tématu rozpoznání kvality audionahrávek a přepisu audionahrávek do textové podoby. Toto téma nachází v posledních letech široké uplatnění zejména v moderních technologiích. Nutno podotknout, že se diplomová práce nezabývá přímo přepisem audionahrávky do textové podoby, ale spíše zkoumá kvalitu a obsah zvukového souboru s cílem predikovat, zda bude následný přepis dostatečně bezchybný. Jádro práce tedy spočívá ve vytvoření prediktoru, který na základě metrik kvality a obsahové bohatosti dokáže co nejlépe odhadnout přesnost automatického přepisu řečového signálu v podobě metriky WER (word error rate). V práci jsou trénovány a testovány dva prediktory, první založený na lineární a druhý na logistické regresi. Práce je psána pečlivou a srozumitelnou češtinou, a i když nemám velké zkušenosti se zpracováním řečových signálů, tak mě tato práce dokázala zaujmout a vysvětlit specifika práce s audio daty. Vytkl bych některé věcné nepřesnosti, například obrázky 7.1 a 7.2 mají patrně přehozený popis os, v rovnici 5.4 pro výpočet správnosti přepisu je evidentní chyba, protože umožňuje, aby vycházela záporná. Chybí zde bohužel i odkaz na literaturu, kde by se dala správnost ověřit. Za slabinu předložené práce považuji závěrečné zhodnocení a prezentaci finálního výsledku. V práci chybí číselné srovnání průměrných odchylek obou prediktorů. Odchylka je spočítána pouze pro lineární regresi, ale bez uvedené jednotky. Očekával bych třeba i grafické vyjádření chyby a porovnání. Závěr je smutnou tečkou jinak zajímavé práce, který se smrkl na pouhý komentář osnovy práce, bez myšlenky, bez přesahu, zbytečný. Nicméně metodika i postup práce jsou korektní a zadání je splněno v celém rozsahu. Formální stránka práce je až na drobnosti v pořádku.

Navrhovaná známka
C
Body
75

eVSKP id 126747