Optimalizace heuristické analýzy spustitelných souborů

Wiglasz, Michal

Optimalizace heuristické analýzy spustitelných souborů

Mark

B

Publisher

Vysoké učení technické v Brně. Fakulta informačních technologií

Abstract

Tato bakalářská práce byla vypracována v průběhu studijního pobytu na Universita della Svizzera italiana ve Švýcarsku. Tato práce popisuje implementaci klasifikačního nástroje pro detekci neznámého škodlivého softwaru, které by mohla nahradit současné řešení, založené na ručně určených vahách. Databáze použitá pro učení a testování byla poskytnuta antivirovou a bezpečnostní společností AVG Technologies. Pět různých klasifikátorů bylo srovnáno za účelem nalezení nejvhodnější metody k implementaci: naivní bayesovský klasifikátor, rozhodovací stromy, algoritmus RandomForrest, neuronové sítě a support vector machine. Po několika experimentech byl vybrán naivní bayesovský klasifikátor. Implementovaná aplikace pokrývá všechny potřebné funkce: extrakci atributů, učení klasifikátoru a odhad jeho úspěšnosti a klasifikaci neznámých vzorků. Protože společnost AVG je ochotna tolerovat maximálně 1% falešně pozitivních klasifikací, úspěšnost implementovaného klasifikátoru je pouze 61,7 %, což je o méně než 1 % lepší než u současného řešení. Na druhou stranu, učící proces je plně automatizovaný a umožňuje rychlé přeučení (v průměru během 12 sekund pro 90 tisíc trénovacích vzorků.)
This BSc Thesis was performed during a study stay at the Universita della Svizzera italiana, Swiss. This thesis describes the implementation of a classification tool for detection of unknown malware based on their behaviour which could replace current solution, based on manually chosen attributes'scores and a threshold. The database used for training and testing was provided by AVG Technologies company, which specializes in antivirus and security systems. Five different classifiers were compared in order to find the best one for implementation: Naive Bayes, a decision tree, RandomForrest, a neural net and a support vector machine. After series of experiments, the Naive Bayes classifier was selected. The implemented application covers all necessary steps: attribute extraction, training, estimation of the performance and classification of unknown samples. Because the company is willing to tolerate false positive rate of only 1% or less, the accuracy of the implemented classifier is only 61.7%, which is less than 1% better than the currently used approach. However it provides automation of the learning process and allows quick re-training (in average around 12 seconds for 90 thousand training samples).

Keywords

Klasifikace, dolování z dat, strojové učení, škodlivý software, antivirus, naivní Bayes, Python., Classification, data mining, machine learning, malicious software, anti-virus, Naive Bayes, Python.

Citation

WIGLASZ, M. Optimalizace heuristické analýzy spustitelných souborů [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2012.

Language of document

cs

Study field

Informační technologie

Comittee

prof. Ing. Lukáš Sekanina, Ph.D. (předseda) prof. Dr. Ing. Pavel Zemčík (místopředseda) Ing. Bohuslav Křena, Ph.D. (člen) doc. Ing. Ondřej Ryšavý, Ph.D. (člen) doc. Ing. František Zbořil, Ph.D. (člen)

Date of acceptance

2012-08-21

Defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se pak seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázku oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm " B ". Otázky u obhajoby: Nebylo by možné využít pro klasifikaci metodu Multi-Naive Bayes nebo kombinaci více klasifikačních metod?

Result of defence

práce byla úspěšně obhájena

Document licence

Standardní licenční smlouva - přístup k plnému textu bez omezení

URI

http://hdl.handle.net/11012/55297

Collections

2012

Citace PRO

Full item page