Posudky závěrečné kvalifikační práce

Posudek vedoucího

Rajmic, Pavel

Bc. Aneta Mikulášková se věnovala rekonstrukci řídkých audiosignálů po průchodu různými typy nelineárních zkreslení. Studentka téma zpracovává od září 2020. Od května 2021 jsem neměl od studentky žádné nové materiály ke kontrole, ke konzultaci, žádné otázky k tématu. Po této odmlce jsem dostal práci k přečtení emailem přesně měsíc před odevzdáním. Studentce jsem postupně dodával zpět moje komentáře k jejímu textu, který byl po roce pro mě prakticky nový, a mj. vzhledem k nízké úrovni textu jsem tímto způsobem došel pouze po část s experimenty. Mezitím studentka práci odevzdala. Dřívějším termínem konzultace by bylo bývalo možné eliminovat alespoň nejvýznamnější věcné i formální chyby, které dle mého názoru práci dělají nedostatečnou. Kromě absence konzultací mezi hlavní problémy práce počítám následující tři: * Rozdíl mezi kvalitou textu teoretické a praktické části. První část obsahuje hodně materiálu přejatého z literatury, je poměrně obsáhlá a přijatelně čitelná. Naproti tomu druhá část je stručná, s chybami a chybějícími informacemi. Podle mého názoru to koresponduje z mým (rok a půl starým) dojmem, že studentka v době obhajoby semestrálního projektu problematice příliš nerozuměla. * Design experimentů učinila studentka sama. Jsou tak málo rozsáhlé, nedostatečně zpracované a obsahují rozhodnutí, která v textu nejsou zdůvodněná (např. zvolení 8bitového rozlišení při kvantování). * Z počítačových kódů jsou dvě funkce zcela přejaté, s autory uvedenými pouze v kódu. Další programy studentky se silně podobají částem dekvatizačnímu toolboxu Ing. P. Závišky z GitHubu. Ovšem zmínka o inspiraci není obsažena ani v těchto kódech, ani v textu diplomové práce. Obdobně jsem nenašel zmíněn ani zdroj audionahrávek použitých při testování. Členění práce na kapitoly je zvoleno vhodně, ale občas se v textu použije něco, co je zavedeno až později (SDR, Izotope). Práce je psána v angličtině, která je na celkem dobré úrovni, ale obsahuje četné prvky „czenglish“ a překlepy. Text obsahuje řadu typografických nedostatků. Zmíním podrobněji některé důvody, proč nepovažuji praktickou část za zvládnutou: * Vstupní signály jsou sice normalizovány na maximální hodnotu, ale to zdaleka neznamená, že do experimentu vstupují s podobným počátečním zkreslením. Např. při použití efektu overdrive u signálu flétny jsem spočítal vstupní SDR 15 dB, zatímco u signálu mužského hlasu je to 30 dB, což je podstatný rozdíl. V důsledku je analýza zlepšení pomocí rekonstrukčních metod přinejmenším pochybná. Platná může být jen pokud by se srovnávaly různé metody mezi sebou, vždy na stejném signálu, což ale nenastalo, protože v práci je použitá jenom jedna metoda rekonstrukce. Studentka se sice v textu na str. 41 pokouší vysvětlit, že „It is advisable to determine this level so that the distribution of the clipped samples is uniform for testing purposes. The clipping parameters were computed from the SDR of testing samples, which was established between 3-5 dB.“, což ale ani podle studentčina způsobu měření SDR není pravda, neboť například SDR flétny je podle její metodiky 12,4 dB, jak je patrné i z obrázku 4.1. * Obdobně vidím slabinu ve vyhodnocení pomocí ODG. Vzhledem k výše uvedenému by v grafu 4.5 alespoň mělo být uvedeno vstupní ODG, aby bylo možné určit zlepšení. * Výstupní SDR počítá studentka špatně a např. u distortion jsem došel dokonce k záporným hodnotám deltaSDR, tedy že rekonstrukce zhoršuje kvalitu signálu. * I přesto, že absolutní čísla nejsou správně, studentka nekomentuje, proč jí vycházejí zlepšení kvality významné u distortion a tape saturation, a naopak slabé výsledky u overdrive a tube saturation. Přitom je důvod zřejmý z průběhu jejich vstupně-výstupní charakteristiky. Studentka se omezuje pouze na konstatování pozorovaných faktů. * Subjektivní test MUSHRA je omezen na nejjednodušší možnou podobu, která spoléhá na externí software. Originální data z testování studentka nezpřístupnila, takže není možné ověřit, že vyhodnocení je správné. * Srovnání pomocí Izotope RX není fér, neboť tento software nezná inverzní převodní charakteristiku, narozdíl od algoritmu studentky. Tomu odpovídají i špatné výsledky pro Izotope RX, ale zmíněný základní faktor studentka vůbec nekomentuje. * Při kvantování dle studentčina kódu dochází k vytvoření falešné kvantizační úrovně v nule (což lze pozorovat např. u signálu flétny). Případnému čtenáři tato diplomová práce mnoho nedá. Teoretická část je výtahem z literatury a na výsledky v praktické části se nelze spolehnout. Po zvážení uvedených faktorů navrhuji ohodnocení F, tedy nedoporučuji práci k obhajobě.

Navrhovaná známka: F

Body: 40

Posudek oponenta

Mokrý, Ondřej

Studentka se ve své práci zabývá rekonstrukcí audio signálů poškozených saturací a kvantizací vzorků, přičemž zobecňuje jednoduchý algoritmus pro rekonstrukci tzv. tvrdé saturace. Původní algoritmus i jeho modifikace jsou v práci odvozeny, implementovány v Matlabu a úspěšnost rekonstrukce je vyhodnocena na reálných nahrávkách. Práce je psána v anglickém jazyce převážně na dobré úrovni, místy však postrádá korekturu a obsahuje i zřejmé jazykové chyby (např. „Here, in the Fig. 1.3 is gain = 4.“ v části 3.3). Formální stránce práce bych vytknul spíše drobnosti, ačkoliv jejich výskyt je častý: Rovnice nejsou (interpunkčně) součástí textu, obsahují nekonzistentní či špatné značení (např. rovnice (2.1), (3.1), (3.6)), v rozvětvených rovnicích chybí znak =. Zkratky se na více místech vyskytují dříve, než jsou zavedeny. Literatura není citována zcela vhodně (např. doslovná citace v části 1.2.2 s nekonkrétním odkazem na celou knihu [1]) a není řazena dle výskytu (citace [13] v části 1.3.2 a další). Některé obrázky jsou překreslené z citovaného zdroje, ale přitom zbytečně rastrové a v nízkém rozlišení. Nedostatky po stránce obsahové jsou závažnější. Odvození optimalizačního algoritmu je zmatené. Zavedení řídkých reprezentací je z literatury převzato v (nadbytečné) obecnosti, ovšem množství značení není zavedeno (skalární součin v rovnici (3.4), vektorové prostory, prostory funkcí). Zmínky o tzv. analyzujícím modelu, který ani není součástí řešení práce, ještě zvyšují chaotičnost popisu, značení a přináší další nepřesnosti (např. tvrzení „In contrast, in the sparse analysis (or co-sparse analysis), the signal y is not formed from single vectors...“). Vyskytují se i vážné faktické chyby: – „For systems of linear equations, there is an infinite number of solutions, and sparse solutions are a subset of those.“ (část 3.2.1) – „Applying the inverse soft-clip function is possible.“ (část 3.3.1, platí sice pro konkrétní příklady v práci, ale obecně nikoliv) Některé zdrojové kódy jsou převzaté, což je uvedeno v kódu jako takovém, ale není to reflektováno v textové části práce. Do funkce pro efekt overdrive je přidán parametr th, pro který však není vstupně-výstupní charakteristika odvozena (s výjimkou volby th = 1/3). Funkce pro efekt distortion obsahuje parametr gain, který však není popsaný v příslušné rovnici (1.7) v textu. Celkově je podle mého názoru práce z hlediska rozsahu, odbornosti i vlastního přínosu hraniční. Vzhledem k zajímavým výsledkům, ač prezentovaným a nevysoké úrovni, uděluji práci 50 bodů.

Navrhovaná známka: E

Body: 50

Otázky

V části 1.3.3 píšete: „The amount of preceding multiplication of the input x leads to an equivalent amount of distortion.“ Vysvětlete a formalizujte tuto větu. Znamená tato vlastnost, že systém dle rovnice (1.7) je lineární?
Vysvětlete blíže rovnici (3.24) definující meze přípustného řešení. Co musí splňovat vstupně-výstupní charakteristika f, aby tato definice byla korektní?