SANTA, R. Nástroj pro automatickou segmentaci nahrávek řeči [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2021.

Posudky

Posudek vedoucího

Kováč, Daniel

Student naprogramoval vlastní detektor řečové aktivity založený na energii a porovnal s již existujícím detektorem Google WebRTC. Navrhl, otestoval a porovnal také další detektory, ten podstatný z nich je založený na melovských kepstrálních koeficientech, který však k detekci řeči využívá pouze první koeficient. Dále vytvořil nástroj, který automaticky segmentuje nahrávky na potřebné řečové úlohy provedeny zdravým řečníkem nebo pacientem s Parkinsonovou nemocí. Dobře si zde poradil s přechody mezi jednotlivými úlohami. V nahrávkách se však přirozeně vyskytují nežádoucí ruchy, které zde nejsou ošetřeny, a mají vliv na přesnost detektoru. Nástroj tak lze využít alespoň pro určitou předsegmentaci nahrávek a při dodržení studentem navržených postupů by měl vykazovat větší úspěšnost. Algoritmus DTW nebyl do nástroje implementován kvůli špatným výsledkům testování. Neproběhlo však testování algoritmu na diadochokinetické úloze a na úloze jednotlivých slov, kde by rozpoznávání mělo být úspěšnější. Student prokázal dobrou znalost programového jazyka Python, v oblasti zpracování řeči se rychle zorientoval a aktivně se podílel na směřování práce. Tu zprvu pravidelně konzultoval, avšak v druhé půlce semestru lehce ustrnul a dostal se do časové tísně, což se odrazilo na celkovém rozsahu práce. Lze poznat, že samotný dokument byl psán ve spěchu. Jazyková úroveň je dostačující, forma lehce pokulhává a na prezenční úrovni musí student ještě zapracovat. Celkově práci hodnotím dobře.

Navrhovaná známka
C
Body
73

Posudek oponenta

Zvončák, Vojtěch

Student naprogramoval nástroj pro detekování úseků v nahrávkách řeči. Využíval k tomu jak jednoduché parametry (průchody nulou, krátkodobá energie signálu atd.), tak složité metody (MFCC, DTW atd.). Práce je psaná v angličtině a až na některé části, je psaná srozumitelně a má dobrou formální úroveň. Na práci se často odkazovalo jako na článek, což působilo rušivě. Co se týká samotné implementace, student naprogramoval zmíněné metody v jazyce Python, nicméně dosažené výsledky by měly být ještě značně rozšířeny. Naprogramovaný detektor řečové aktivity nebyl otestován na různých cvičeních z databáze, ale pouze na jednom (k dispozici bylo nejméně dalších 10 různých variant). Dosažené výsledky nejsou dostatečně diskutovány a jsou prezentovány převážně v tabulkách. Z uvedených důvodů hodnotím práci známkou C, 75 bodů.

Navrhovaná známka
C
Body
70

Otázky

eVSKP id 133395