Posudky závěrečné kvalifikační práce

Posudek vedoucího

Zezulka, František

Úkolem studenta bylo navrhnout a realizovat program pro analýzu dat z výrobního procesu. Konkrétně měl student prostudovat existující algoritmy pro analýzu dat ( rozhodovací stromy, neuronové síte, Bayesovu metodu) a vyhodnotit jejich klady a zápory pro uvedenou problematiku, dále porovnat softwarové produkty pro analýzu a vyhodnocování dat, které jsou již k disposici, dále vytvořit knihovnu s algoritmy ( rozhodovací stromy, neuronové síte, Bayesovu metodu) pro analýzu a vyhodnocování dat a konečně ověřit úspěšnost jednotlivých algoritmů při analýze dat, které budou z daného procesu k dispozici. Student se danému úkolu věnoval od práce na semestrálním projektu. Vzhledem k tomu, že zatím v bakalářském stupni nemohl studovat zadané metody pro analýzu dat, nastudoval dle svých možností odpovídající teorii a provedl teoretický rozbor vhodnosti jednotlivých metod. Dále se blíže seznámil se systémem operativního řízení COMES, pro který byla tato práce zadána firmou COMPAS automatizace. Postup prací pravidelně konzultoval jak s vedoucím práce tak s konzultantem na zadávajícím pracovišti. Pracoval intenzivně a efektivně. S dalšími potížemi se při řešení úkolu nesetkal. Práci dokončil ve stanoveném čase s dostatečnou rezervou. Zadání práce splnil v plném rozsahu a prokázal velmi dobré schopnosti i dovednosti na úrovni bakalářského studijního oboru KAM. Práci hodnotím stupněm B/ 83b

Navrhovaná známka: B

Body: 83

Posudek oponenta

Honzík, Petr

Předložená bakalářská práce je velmi náročná. Vyžaduje znalosti, které jsou v bakalářském programu probírány jen částečně, časové nároky na úspěšnou implementaci požadovaných algoritmů jsou také vysoké. Po formální stránce lze vytknout zbytečně složité členění kapitol, místy nelogické. Lze doporučit např. spojení kapitol 1, 3, 4 a 5 nebo spojení kapitol 7 a 9. Sporadicky se vyskytují gramatické chyby. Jinak je práce na dobré úrovni. Po stránce věcné je práce definována čtyřmi body: Bod 1.: Rešerše zadaných algoritmů je zpracována na str. 13-22. Kvalita rešerše odpovídá skutečnosti, že student danou problematiku musel nastudovat sám, odpovídající kurz si může zapsat až v magisterském programu. Obsahuje řadu nepřesností, u rozhodovacích stromů a bayesovského učení je zjevné, že bylo čerpáno primárně z jednoho zdroje. Do budoucna bych doporučil použít důvěryhodnější literaturu. Za problematické považuji citace převzaté z literatury; citace nejsou graficky odlišeny od běžného textu nebo uvedeny v uvozovkách. Není tak nijak odlišen text původní a text převzatý (ukázka neoznačených citací vyznačena tužkou v předložené práci na str. 21 a 22). Na druhou stranu student za odstavci pravidelně uvádí referenci na použitý zdroj, považuji nedostatečné značení převzatého textu za pochybení, nikoliv však za pokus o podvod. Bod 2.: Na stranách 23-24 je výčet několika málo programů určených pro analýzu dat. Tuto část bych doporučil příště zpracovat do tabulky. Bod 3.: Implementace je zjevně původní, je v práci popsána na stranách 29-47. Popis je zbytečně detailní, přitom chybí instrukce pro uživatele. Aplikace je konzolová, po spuštění nevykazuje žádnou aktivitu, neobjeví se žádné instrukce. Po stisknutí klávesy „enter“ se ukončí. Téhož bylo dosaženo po otevření projektu ve Visual Studiu 2010, překladu a spuštění. Bod 4.: Vzhledem k nedostatečnému popisu dat není jasné, zda je klasifikováno do dvou nebo do více tříd (v datech existuje více typů defektů). Student dále lpí na normalizace dat pro rozhodovací stromy, úspěšnost klasifikace je údajně „závislá na přesnosti normalizace trénovacích dat“, což popírá jednu z výhod rozhodovacích stromů, kterou jest necitlivost na normalizaci. Také není jasné, jak toto tvrzení plyne z grafu 10.2.1. V souhrnné podkapitole 10.4 lze určitě souhlasit s odlišnými časovými nároky jednotlivých metod. Koncepčně lze říci, že práce samotná selhává v několika klíčových bodech. 1) V práci není ověření správnosti implementace algoritmů, přestože se nabízí velké množství knihoven a freewarových nástrojů s algoritmy již implementovanými a řada testovacích databází; není tedy jasné, zda např. neúspěšnost neuronových sítí není zaviněna chybou v programu. 2) I v případě správné implementace algoritmů student naráží na jejich omezenou funkčnost (např. ošetření chybějících dat u rozhodovacích stromů), která jsou však již dávno vyřešena; implementace je na zcela elementární úrovni a neodpovídá skutečným možnostem jednotlivých modelů. 3) Pro odhad přesnosti student použije rozdělení dat na trénovací a testovací (na CD jsou k dispozici i data validační), zcela pomíjí použití křížové validace; vzhledem k počtu dostupných dat (tisíce instancí, sedm atributů) to nedává smysl. 4) Nikde nejsou dostatečně popsána použitá data, vyskytuje se několik útržkovitých vět a popis na straně 27. Není jasné, jak data vznikají ani do kolika tříd se klasifikuje. Výstupní veličina obsahuje název více různých typů defektů, přesto práce budí spíš dojem binární klasifikace, defekt ANO/NE. Závěrem lze říci, že student stál před obtížnou prací a bez intenzivního metodického vedení byly jeho šance na zdařilý výsledek mizivé. Jak velké rezervy má předložené řešení nelze posoudit. Je zřejmé, že řešení bylo věnováno velké množství času a do jakéhosi konce je práce skutečně dotažena. Bakalářské schopnosti prokázány určitě byly. Vzhledem k nedostatkům při citacích cizích zdrojů snižuji hodnocení o stupeň a navrhuji hodnocení D, 60 bodů.

Navrhovaná známka: D

Body: 60

Otázky

Do kolika tříd bylo klasifikováno?
Jak jste ověřoval správnost implementace algoritmů?
Proč normalizujete data pro rozhodovací strom (má to nějaké procesní důvody, např. změnu offsetu během výroby/měření)?