Posudky závěrečné kvalifikační práce

Posudek vedoucího

Honzík, Petr

Bc. David Stehno řešení diplomové práce pravidelně konzultoval a práci se věnoval systematicky a samostatně. Na základě vlastní iniciativy získal reálná data od svého zaměstnavatele a využil je v experimentální části. Průběžně předkládané dílčí výsledky vyžadovaly drobné korekce ze strany vedoucího. Pracovat na obhajované práci začal student až od SP2, měl tedy v porovnání s kolegy na vypracování o semestr méně. Další komplikace nastala se získáváním dat od zaměstnavatele, podařilo se je získat až s velkým zpožděním. To se projevilo jak na kvalitě a rozsahu zpracování dat samotných tak na zpracování předložené práce. Vzhledem k aktivnímu přístupu studenta ať už ve formě pravidelných konzultací nebo snahy řešit reálný problém ze zaměstnání, přikláním se k hodnocení 75 bodů / C / dobře.

Navrhovaná známka: C

Body: 75

Posudek oponenta

Hynčica, Tomáš

Práce se zabývá problémem předpovědi počtu hovorů na call centrum telefonního operátora pomocí metodologie dolování dat CRISP-DM. Jednotlivé fáze metodologie CRISP-DM jsou popsány. Obrázky jsou bohužel převzaty z literatury v nepříliš dobré kvalitě a v textu nejsou popsány ani odkazovány (problém, který se vyskytuje v celé práci). Také je v práci nevhodně včleněn popis některých algoritmů, což výrazně snižuje přehlednost. Jediný ukázkový příklad je uveden v etapě modelování. Jedná se o ne příliš vypovídající ukázku použití rozhodovacího stromu a to bez konkrétních návazností na metodologii CRISP-DM. Z výsledného stromu vyplývá, že student příliš nepochopil jeho tvorbu. Pro zpracování byla vybrána databáze počtu hovorů přicházejících na call centrum v letech 2002 až 2010. Student se zaměřil na predikci počtu těchto hovorů. Nejprve správně porozuměl datům a k stávajícím atributům přidal diferenci jednotlivých vstupních parametrů. Jelikož se predikce provádí na 3 měsíce dopředu, bylo by zajímavé udělat diferenci vždy ze tří měsíců, a ne pouze ze dvou, jak je tomu v práci. V rozboru také chybí graf pro atributy Churn a Involuntary churn, naopak graf počtu hovorů je uveden dvakrát. V následné přípravě dat provádí student normalizaci dat a optimalizaci parametrů pomocí dvou metod (forward a backward selekce). V etapě modelování student použil 4 typy modelů (k-nejbližších sousedů (k-nn), neuronovou síť, SVM a lineární regresi) s různým nastavením parametrů. Tak získal celkem 9 prediktorů. Bohužel popis parametrů použitých modelů je nejasný a neúplný. Například u neuronové sítě zcela chybí informace o topologii, učicím algoritmu a ukončovací podmínce. Modely k-nn a SVM nejsou v teorii popsané, přitom je student hodnotil jako nejlepší. Graf s porovnáním výsledků obsahuje skutečné počty hovorů, dosavadní predikce a výsledky predikcí pomocí SVM modelu. Graf je bohužel nejasně popsán. Nově použitý model vychází lépe než současně používaná metoda, ale chybí informace o kolik. Také by bylo zajímavé porovnat a zhodnotit predikce více modelů. Hlavním přínosem práce je použití reálných dat a vysoká pravděpodobnost aplikování navrženého řešení do praxe. Úroveň práce velmi snižuje velké množství formálních chyb a nejasných formulací (v originále práce označených symbolem „?“ na pravé straně stránky), například neodkazování obrázků v textu, nedodržování jednotného formátování, nevhodný úvod atd. Také popis praktického řešení je příliš krátký (9 stran plných obrázků a grafů) a chybí podstatné a zajímavé údaje. Celá druhá kapitola, která popisuje další dvě metodologie dolování dat, je v práci zbytečná a slouží pouze k zvýšení poměrně malého rozsahu práce. Přes uvedené nedostatky doporučuji předloženou diplomovou práci k obhajobě s hodnocením E/dostatečně.

Navrhovaná známka: E

Body: 58

Otázky

Jakou funkci a význam mají uzly klient, pohlaví a zaměstnání v ukázkovém příkladu rozhodovacího stromu?
Co je myšleno tvrzením, že neuronové sítě jsou velmi citlivé vůči chybným datům?
Jaká topologie a učící algoritmus byly použity pro neuronové sítě?