Posudky závěrečné kvalifikační práce

Posudek vedoucího

Safonov, Yehor

Student částečně splnil cíle diplomové práce, provedl analýzu současného stavu problematiky v oboru bezpečnostních systémů provádějících managment logových záznamů (SIEM) a zároveň detailně prozkoumal jiné moderní techniky umožňujících zefektivnění stávajících SIEM řešení. V rámci praktické časti, si student zvolil jeden z definovaných v rámci analýzy optimalizačních problémů (problém automatické kategorizace logových záznamů), definoval požadavky na budoucí datovou sadu, realizoval rešerši veřejně dostupných datových sad a vědeckých prací a následně, dle zjištěných poznatků, provedl vytvoření datové sady kategorizovaných logových záznamů obsahující jak vlastní data, tak i data volně dostupná na internetu. Základní rozdělení na kategorie spočívalo v rozdělení zdrojů logů do čtyř skupin: sítová zařízení, operační systémy, bezpečnostní aplikace a jiné aplikace. Následně student provedl trénování modelu hluboké neuronové sítě typu BERT na normalizovaných datech. Implementované řešení student otestoval na testovacích datech pro tři různé scénáře. Pro posouzení kvality vypočítal individuální matice záměn, hodnoty ztrátových funkcí a finální přesnost sítí. V průběhu akademického roku student pracoval samostatně, pravidelně konzultoval a prezentoval dosažené výsledky v dohodnutých časových intervalech. Student prokázal schopnost práce s odbornou literaturou. Celkově je uvedeno 81 referencí, které jsou aktivně používány v textu práce. Všechny grafické a textové vstupy jsou řádně citovány. Textové a grafické zpracování diplomové práce je na velmi vysoké úrovni. Mezi silné stránky práce lze zařadit zejména teoretickou část práce, konkrétně detailní srovnání SOC řešení, popis procesu logování, definice funkcionality SIEM a SOAR řešení, určení jejich nedostatků a popis interních procesů zpracování bezpečnostních informací a vytvoření incidentů. Následně je v práci udělán kvalitní přehled v problematice strojového učení. V textu jsou zmíněny vlastnosti neuronových sítí a typy jejich učení, uvedeny způsoby vyhodnocení modelů, srovnány populární architektury neuronových sítí, popsány možné způsobů nasazení AI modelů na SIEM řešení. Na konci teoretické časti student udělal podrobný technický popis existujících vědeckých prací a řešení (DeepLog, DeepCASE a Tiresias). Mezi slabé stránky práce patří chybějící druhý scénář aplikace neuronové sítě na SIEM a neexistenci API rozhraní, umožňujícího realizovat napojení na SIEM. Z důvodu rozsáhlé a kvalitně provedené teoretické časti, vlastní datové sady a jednoho modelu včetně kvalitní vědecké rešerše navrhuji práci k obhajobě s finálním hodnocením B (80 bodů).

Navrhovaná známka: B

Body: 80

Posudek oponenta

Mikulec, Marek

Student velmi podrobně zpracoval teoretickou část práce, kde se zabýval problematikou monitoringu v oblasti kyberbezpečnosti. Uvedena je rozsáhlá rešerše existujících řešení, jsou popsány současné metody a existující řešení, a především jsou identifikovány mezery v současném výzkumu a navrženy různé oblasti monitorování v kyberbezpečnosti, které by mohli být automatizovány a vylepšeny pomocí metod umělé inteligence. Tyto výsledky jsou přehledně shrnuty na obrázku 2.7, který by mohl sloužit jako námět pro další vědecké práce. Student v teoretické části rovněž popsal různé metody umělé inteligence a strojového učení v souvislosti s navrženými aplikacemi v kyberbezpečnosti. Teoretická část rozsahem a záběrem přesahuje použité řešení v rámci samotné praktické části. Praktická část si volí jeden konkrétní případ aplikace hlubokého učení pro automatizaci klasifikace logů. Nejprve představuje datovou množinu, která je zveřejněna společně s diplomovou prací. Následně je zvolen předpřipravený model BERT, sloužící ke zpracování přirozeného jazyka. Tento model je aplikován v klasifikační úloze, kdy jsou logy roztříděny do 20 kategorií. Následně je model otestován s různým poměrem rozdělení dat na testovací, trénovací a validační množinu. Výsledky dosahují kvalit srovnatelných s aktuálně dostupnými řešeními. Student splnil v plné míře teoretické cíle diplomové práce. Cílů praktické části nebylo plně dosaženo, komplexita zadání je ovšem velmi rozsáhlá. Samotná práce má dobrou prezentační i formální úroveň. V textu se nachází několik překlepů, na straně 25 je chybně duplikována část věty. Na základě obtížnosti zadání a velmi kvalitní teoretické části uděluji práci 82 bodů.

Navrhovaná známka: B

Body: 82

Otázky

V rámci nastavení maximální délky řetězce logu je nastavena hodnota 512 znaků, zároveň je ovšem uvedena informace, že většina logů dosahuje délky 100 znaků. Nebyl proveden pokus, zda by bylo možné logy klasifikovat pouze na základě 100 znaků a tím dále ušetřit paměťovou a časovou náročnost bez signifikantní ztráty přesnosti?
V případě scénáře s největším objemem trénovacích dat (6O%) je dosaženo 100% přesnosti. Není to způsobeno opakováním logů v množině trénovacích, testovacích a validačních dat, a nedochází k přetrénování modelu?