Optimalizace heuristické analýzy spustitelných souborů

Loading...
Thumbnail Image
Date
ORCID
Mark
B
Journal Title
Journal ISSN
Volume Title
Publisher
Vysoké učení technické v Brně. Fakulta informačních technologií
Abstract
Tato bakalářská práce byla vypracována v průběhu studijního pobytu na Universita della Svizzera italiana ve Švýcarsku. Tato práce popisuje implementaci klasifikačního nástroje pro detekci neznámého škodlivého softwaru, které by mohla nahradit současné řešení, založené na ručně určených vahách. Databáze použitá pro učení a testování byla poskytnuta antivirovou a bezpečnostní společností AVG Technologies. Pět různých klasifikátorů bylo srovnáno za účelem nalezení nejvhodnější metody k implementaci: naivní bayesovský klasifikátor, rozhodovací stromy, algoritmus RandomForrest, neuronové sítě a support vector machine. Po několika experimentech byl vybrán naivní bayesovský klasifikátor. Implementovaná aplikace pokrývá všechny potřebné funkce: extrakci atributů, učení klasifikátoru a odhad jeho úspěšnosti a klasifikaci neznámých vzorků. Protože společnost AVG je ochotna tolerovat maximálně 1% falešně pozitivních klasifikací, úspěšnost implementovaného klasifikátoru je pouze 61,7 %, což je o méně než 1 % lepší než u současného řešení. Na druhou stranu, učící proces je plně automatizovaný a umožňuje rychlé přeučení (v průměru během 12 sekund pro 90 tisíc trénovacích vzorků.)
This BSc Thesis was performed during a study stay at the Universita della Svizzera italiana, Swiss. This thesis describes the implementation of a classification tool for detection of unknown malware based on their behaviour which could replace current solution, based on manually chosen attributes'scores and a threshold. The database used for training and testing was provided by AVG Technologies company, which specializes in antivirus and security systems. Five different classifiers were compared in order to find the best one for implementation: Naive Bayes, a decision tree, RandomForrest, a neural net and a support vector machine. After series of experiments, the Naive Bayes classifier was selected. The implemented application covers all necessary steps: attribute extraction, training, estimation of the performance and classification of unknown samples. Because the company is willing to tolerate false positive rate of only 1% or less, the accuracy of the implemented classifier is only 61.7%, which is less than 1% better than the currently used approach. However it provides automation of the learning process and allows quick re-training (in average around 12 seconds for 90 thousand training samples).
Description
Citation
WIGLASZ, M. Optimalizace heuristické analýzy spustitelných souborů [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2012.
Document type
Document version
Date of access to the full text
Language of document
cs
Study field
Informační technologie
Comittee
prof. Ing. Lukáš Sekanina, Ph.D. (předseda) prof. Dr. Ing. Pavel Zemčík (místopředseda) Ing. Bohuslav Křena, Ph.D. (člen) doc. Ing. Ondřej Ryšavý, Ph.D. (člen) doc. Ing. František Zbořil, Ph.D. (člen)
Date of acceptance
2012-08-21
Defence
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se pak seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázku oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm " B ". Otázky u obhajoby: Nebylo by možné využít pro klasifikaci metodu Multi-Naive Bayes nebo kombinaci více klasifikačních metod?
Result of defence
práce byla úspěšně obhájena
Document licence
Standardní licenční smlouva - přístup k plnému textu bez omezení
DOI
Collections
Citace PRO