ZAMAZAL, P. Statistická analýza rozsáhlých dat z průmyslu [online]. Brno: Vysoké učení technické v Brně. Fakulta strojního inženýrství. 2021.

Posudky

Posudek vedoucího

Šomplák, Radovan

Komplikovaná situace a omezené možnosti konzultací způsobené pandemií COVID-19, významně ovlivnili průběh prací na diplomové práci. Studentovi trvalo poměrně delší dobu, než dokázal uchopit práci systematickým způsobem. Nicméně výsledky diplomové práce jsou nakonec použitelné pro další činnosti v rámci projektů na Ústavu procesního inženýrství. Práce byla založena na zpracování velkého množství dat z reálného provozu. Konkrétně se jednalo o databázi shromažďující informace o pohybu vozidel svážející odpad a o data o produkci odpadu ze značného množství obcí (cca 50). Autor práce nepodcenil nezbytný pre-processing dat, kdy bylo nutné datovou sadu očistit o odlehlá pozorování a řešit výskyt chybějících hodnot. Student si byl vědom úskalí práce s reálnými daty. Sestavený predikční model s využitím principů lineární regrese slouží jako vstup do VRP a ARP modelů pro optimalizaci svozu odpadu. Autor analyzoval regresní model z pohledu splnění předpokladů. Některé předpoklady nebyly splněny na což autor práce vhodně reagoval. Oceňují komentáře autora k omezené možnosti dále pracovat s modely, příkladem může být konstrukce pásů spolehlivosti apod. Dále velmi oceňuji programátorské práce v jazyku Python s využitím adekvátních knihoven, které byly nutné pro zpracování takto rozsáhle datové sady. Za slabinu práce považuji horší diskuzi nad výsledky. Některé pasáže jsou poměrně složitě čitelné pro čtenáře. Vytyčené cíle práce byly splněny a celkově hodnotím práci písmenem B.

Dílčí hodnocení
Kritérium Známka Body Slovní hodnocení
Splnění požadavků a cílů zadání B
Postup a rozsah řešení, adekvátnost použitých metod C
Vlastní přínos a originalita B
Schopnost interpretovat dosažené výsledky a vyvozovat z nich závěry C
Využitelnost výsledků v praxi nebo teorii A
Logické uspořádání práce a formální náležitosti C
Grafická, stylistická úprava a pravopis C
Práce s literaturou včetně citací B
Samostatnost studenta při zpracování tématu B
Navrhovaná známka
B

Posudek oponenta

Popela, Pavel

Autor předložené diplomové práce splnil požadavky a cíle zadání. Postup a rozsah řešení považuji za odpovídající, použité metody jsou adekvátní. V aplikační části autor postupuje znale krok za krokem (viz diskuse základních předpokladů, řešení chybějící hodnot, dalších chyb a rozporů v datech, otázky agregace dat, přidání socioekonomických dat, sestavení modelů a jeho posuzování z hlediska výstižnosti, modifikace modelů a jejich analýza) a všímá si řady aplikačních detailů, se kterými se průběžně a znale vypořádává. Je vidět, že reálná programátorská zkušenost s implementací řešených úloh prospěla i kvalitě výkladu v této části. Oceňuji obšírnou prezentaci různých variant svozů s využitím zejména průzkumové analýzy dat a úsilí věnované přípravě a rozboru modelů. Vlastní přínos a originalita práce podle mne spočívá v kombinaci různých znalostí a využití dovedností autora. Kladně hodnotím čtivý motivační úvod, autor rovněž prokázal znalou orientaci v použitém programovém nástroji Python, díky které si autor poradil s rozsáhlými daty. Slabinu vidím v tom, že zde autor k práci nepřiložil jím vytvořené kódy a podrobné výsledky, a tím omezil některé možnosti ověřit výsledky jeho výzkumu. Schopnost interpretovat dosažené výsledky a vyvozovat z nich závěry v průběhu práce kolísá v rámci autorem logicky řazených částí práce. Vhodné schéma zpracování (strana 20) pomáhá pochopení postupu autora v aplikační části. Oceňuji zasvěcený komentář k preprocesingu dat a podrobně rozebrané předpoklady z pohledu reálné situace, na druhé straně jiné intepretace považuji spíše za ukázkové a konkrétní a příliš stručné z pohledu rozsáhlého souboru dat. Využitelnost výsledků v praxi je nepochybná, autor pracoval s reálnými daty, postup práce autor konzultoval nejen se školitelem, ale s více odborníky na ÚPI, kterým rovněž poděkoval. Více připomínek mám k formálním náležitostem. Srozumitelné, ale volnější intuitivní uvedení některých pojmů vlastními slovy autora a bez odkazů na literaturu je sice čtivé, ale odvážné a někdy až za hranicí potřebné přesnosti, viz např. zmínění náhodné veličiny jako funkce na straně 5, ale zmínka neřeší měřitelnost (možnost přenosu pravděpodobnosti) tohoto zobrazení a navíc bohužel nerozlišuje mezi výsledky jako prvky základního prostoru a jevy jako jeho podmnožinami. Obdobně vymezení spojité náhodné veličiny pomocí opačného případu k veličině diskrétní je nepřesné, protože nepostihuje tzv. smíšené náhodné veličiny. Obecněji bych konstatoval, že volnější připomenutí základních pojmů autorem je pro znalého čtenáře zčásti bezproblémové, ale jasné vymezení použitých symbolů chybí (viz např. (2.1) a dále). Uvedená pravidla pro zamítání hypotéz při doslovném pojetí nezohledňují oboustrannost alternativní hypotézy a možná neceločíselnost stupňů volnosti ( viz vzorce (2.6) a (2.13) ) bez přesného odkazu na pramen a způsob dalších úprav indikuje možnou chybu. Vícepísmenné matematické symboly (jako max, min, var a median) a vsunutá slova (pro) je vhodnější neuvádět kurzívou. Bylo by vhodné symbolicky (nejen podle kontextu) rozlišovat mezi testovou statistikou a hodnotou testu. Ve (2.24) chybí u Y_i avizovaná střední hodnota, za vztahem autor nejednotně zmiňuje c a \sigma. Význam druhé části odstavce 2.4.1 (viz od zavedení Q) pro další výpočty není při jeho uvedení jasný, zasloužil by si vysvětlující komentář i ve vztahu k Větě 2. Ke stylistická úpravě a pravopisu musím uvést, že na titulní stránce upoutá pozornost nehezky vypadající jednopísmenná předložka na konci řádku. Tyto situace se pak vyskytují častěji i v textu práce (viz např. strana 3, kde vidíme 5 jednopísmenných předložek na konci řádku). V dobře rozvrženém obsahu z pohledu členění práce se ale jediný poslední řádek rušivě zobrazuje až na další straně. Styl autora zpestřují některé zajímavé prvky, mezi které řadím např. korektně používané spřežky, ale dojem ruší zbytečné překlepy, viz např. "modlu" na straně 18. Za nešťastné bych označil překlepy i v nadpisu Grubss (správně Grubbs). Rovněž chybí čárky mezi prvky výběru ve 2.2.2. Uvedení závorek kolem varX před (2.19) je zřejmě redundantní. Indexace v části 2.3.2 není řešena jednotně a je matoucí. Při práci s literaturou autor využil doporučené prameny z oblasti matematické statistiky a obecný pramen doporučený pro modelování v operační analýze nahradil srovnatelnými konkrétněji zaměřenými prameny. S ohledem na intuitivní přiblížení některých pojmů autorem čtenáři by bylo vhodné důsledněji průběžně citovat.

Dílčí hodnocení
Kritérium Známka Body Slovní hodnocení
Splnění požadavků a cílů zadání A
Postup a rozsah řešení, adekvátnost použitých metod B
Vlastní přínos a originalita B
Schopnost interpretovat dosaž. výsledky a vyvozovat z nich závěry B
Využitelnost výsledků v praxi nebo teorii A
Logické uspořádání práce a formální náležitosti C
Grafická, stylistická úprava a pravopis B
Práce s literaturou včetně citací B
Navrhovaná známka
B

Otázky

eVSKP id 132858