Metody detekce nevyžádané elektronické pošty
Spam detection methods
Author
Advisor
Oujezský, VáclavReferee
Horváth, TomášGrade
CAltmetrics
Metadata
Show full item recordAbstract
Hlavním cílem této práce je navrhnout a implementovat detekční algoritmus na spam, který využívá výhradně záznamy provozu v podobě Netflow zpráv. Poskytovatelé internetových služeb musí spam detekovat, aby zabránili označování celých jejich subnetů za spammery. Algoritmus byl navržen na základě analýzy mnohých datasetů obsahující Netflow záznamy. Tyto datasety obsahovaly validní emaily, spam a také běžný internetový provoz. Algoritmus v prvním kroku využívá domain name system blacklistů pro verifikaci spammovací stanice. Veškerá komunikace ze stanic, které se objeví na některém ze seznamů jsou okamžitě zahozeny. Filtrační kritéria algoritmu jsou aplikována pouze na stanice, které nejsou blacklisty označeny. Tato kritéria byla rozdělena na akceptační a seřaďovací. Akceptační kritérium bylo navrženo k nalezení potenciálně významných stanic. Bylo formulováno pět kritérií určených k seřazování těchto vybraných IP adresy dle pravděpodobnosti, že se jedná o spamovací stanice. Za každým kritérium stojí matematická rovnice vracející hodnotu mezi 0 a 1. Celkový součet takto vrácených hodnot se u spamovacích stanic blíží k pěti, zatímco legitimní stanice mají hodnoty znatelně nižší. Výstupem vyvinutého algoritmu je seznam potenciálních spamovacích stanic seřazených podle pravděpodobnosti, že se jedná o spamovací stanice. The main goal of this thesis is to build a spam detection algorithm that uses solely traffic flow logs in the form of Netflow messages. Internet service providers must detect spam in order for their entire subnets not to be marked as spamming stations. The algorithm was drafted based on an analysis of various datasets containing Netflow records. These datasets consist of valid e-mails, spam and common non e-mail related traffic. The algorithm uses domain name system blacklist verification as the first step of identifying a spamming station. All flagged communications are dropped immediately. Only if a station is not marked are filtering criteria subsequently applied. These criteria have been divided into acceptance and ordering criteria. An acceptance criterion has been drafted to select potentially significant stations. Five ordering criteria have been formulated to sort these selected IP addresses by the probability of them being spamming stations. Behind each criterion is a mathematical equation that returns a value between 0 and 1. The total sums of such returned values are close to 5 with spamming stations, while legitimate stations have noticeably lower values. The output of the developed algorithm is a list of potential spamming stations sorted probability of them being spamming stations.
Keywords
Netflow provoz, ochrana soukromí, nevyžádaná elektronická pošta, Netflow traffic, privacy protection, unsolicited electronic mailLanguage
angličtina (English)Study brunch
bez specializaceComposition of Committee
prof. Ing. Dan Komosný, Ph.D. (předseda) Ing. Petr Dzurenda, Ph.D. (místopředseda) Ing. Ondřej Pospíšil (člen) Ing. Tomáš Lieskovan (člen) JUDr. Ing. František Kasl, Ph.D. (člen) Ing. Jaroslav Vrána, Ph.D. (člen)Date of defence
2022-06-14Process of defence
Student prezentoval výsledky své práce a komise byla seznámena s posudky. Otázky oponenta: Porovnejte Vaše výsledné řešení s využitím Naive Bayes. Jaký by byl postup k vytváření a evaluaci vlastního datasetu z reálné sítě? Otázky komise: Kde jste získal dataset použitý v práci? Jak je to z pohledu práva a dynamických adres v datasetu? Jedná se o umělý provoz nebo reálný provoz? Student obhájil bakalářskou práci s výhradami a odpověděl na otázky členů komise a oponenta.Result of the defence
práce byla úspěšně obhájenaPersistent identifier
http://hdl.handle.net/11012/205529Source
RICKWOOD, M. Metody detekce nevyžádané elektronické pošty [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2022.Collections
- 2022 [397]