VACULÍK, K. Selekce příznaků pomocí nekorelovaných charakteristik [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2013.

Posudky

Posudek vedoucího

Honzík, Petr

Bc. Karel Vaculík pracoval samostatně a systematicky. Pravidelné konzultace měly charakter spíše informativní, student na nich předkládal hotové dílčí výsledky a návrhy na další postup. Student projevil mimořádné schopnosti samostatně navrhovat řešení i méně standardních situací. V rámci bakalářské práce bylo třeba vymyslet jednak způsob výpočtu korelační matice mezi jednotlivými charakteristikami, což je postup původní, který se v odborné literatuře nepodařilo nalézti (současná srovnání končí výčtem empiricky zjištěných přesností), ve druhé fázi pak použít tuto korelační matici při návrhu nových metod. Jedná se o úkoly relativně obtížné, jejichž řešení student zvládl samostatně, a považuji proto za vhodné toto zdůraznit. Navrhuji celkové hodnocení 98 bodů / A / výborně.

Navrhovaná známka
A
Body
98

Posudek oponenta

Klusáček, Jan

Úkolem studenta bylo seznámit se s metodami selekce příznaků používaných ve strojovém učení, se zaměřením na filter feature selection (FFS), vypracovat jejich stručný přehled a provést rešerši studií srovnávajících přesnost těchto metod. Obdobné experimenty by měly být zopakovány. Na základě výsledků vlastních experimentů a korelační matice FFS metod má být navržena nová metoda, kombinující tyto metody. Zadání hodnotím jako náročné. V první kapitole jsou popsány používané metody selekce příznaků. Ve druhé kapitole je jednak přehled tří prací zabývajících se srovnáním metod FFS a také popis vlastních experimentů. V závěru této kapitoly je korelační matice srovnávající pořadí příznaků vybraných za pomoci různých metod. Ve třetí kapitole je představena nově navržená metoda a popsán program v RapidMineru a skripty v Pythonu, které slouží k automatizovanému otestovaní navržené metody. Dále je v této kapitole provedeno porovnání různých nastavení nově navržené metody. Trochu matoucí je číslování metod v tabulce 3.4. které dosahuje až do hodnoty m128, přesto že v tabulce 3.2 v kapitole 3.3 je číslování uvedeno v rozsahu 0-119 (z textu kapitoly je však možné usoudit že posun vznikl sloučením výsledků získaných bez použití korelační matice a s jejím použitím). Ve čtvrté kapitole je krátké zhodnocení výsledků nové metody. Celá práce je logicky členěna a je na dobré technické úrovni. V rámci práce byly vytvořeny programy v RapidMineru a Pythonu sloužící jednak k provedení experimentů, jejichž výsledky byly použity při návrhu nové metody, a poté k ověření úspěšnosti nové metody. Na těchto programech oceňuji, že umožňují jednoduché provedení celého experimentu, a v případě změny v navrhnuté metodě nebo při potřebě otestovat další vstupní data, je možné jednoduše celý experiment zopakovat. Zhodnocení navrhnuté metody je stručné a použit statistický test nepotvrdil, že by byla lepší než selekce za použití chí-kvadrát testu. Výsledky jsou však přesto velice slibné a v práci by bylo možné pokračovat, například otestováním dalších metod vyhodnocení vybraných atributů než je algoritmus nejbližší soused. Práce svědčí o bakalářských schopnostech studenta a doporučuji ji k obhajobě.

Navrhovaná známka
A
Body
93

Otázky

eVSKP id 66063