• čeština
    • English
    • русский
    • Deutsch
    • français
    • polski
    • українська
  • polski 
    • čeština
    • English
    • русский
    • Deutsch
    • français
    • polski
    • українська
  • Zaloguj
Zobacz pozycję 
  •   Strona główna DSpace
  • Závěrečné práce
  • dizertační práce
  • Fakulta informačních technologií
  • 2017
  • Zobacz pozycję
  •   Strona główna DSpace
  • Závěrečné práce
  • dizertační práce
  • Fakulta informačních technologií
  • 2017
  • Zobacz pozycję
JavaScript is disabled for your browser. Some features of this site may not work without it.

Klasifikace na nevyvážených datech

Classification on unbalanced data

Thumbnail
Oglądaj/Otwórz
review_128200.html (1.654KB)
final-thesis.pdf (3.004MB)
thesis-1.pdf (3.003MB)
Posudek-Vedouci prace-1043_s1.pdf (67.75KB)
Posudek-Oponent prace-1043_o1.pdf (100.0KB)
Posudek-Oponent prace-1043_o2.pdf (1.000MB)
Autor
Hlosta, Martin
Advisor
Zendulka, Jaroslav
Referee
Popelínský, Lubomír
Štěpánková,, Olga
Grade
P
Altmetrics
Metadata
Pokaż pełny rekord
Streszczenie
Tématem této disertační práce je klasifikace daty s nevyváženými daty. Jedná se o oblast strojového, jejímž cílem je řešit problémy, které plynou z toho, že jedna ze tříd je v datech zastoupena výrazně méně než třída druhá. Minoritní třída má často větší význam a tradiční metody upřednostňující majoritní třídu nedosahují dobrých výsledků na třídě minoritní. Dvě aplikační domény motivovaly výzkum a vedly na identifikaci dvou specifických, dosud neřešených problémů.  V první z nich vedlo omezení kladené na minimální požadovanou přesnost na minoritní třídě v počítačové bezpečnosti na formulaci úlohy klasifikace s omezením. Navrhl jsem metodu, která kombinuje upravenou verzi logistické regrese a stochastické algoritmy, které vždy vylepšily výsledky logistické regrese.Druhou je doména analýzy učení (Learning Analytics), která motivovala definici problému predikce splnění cíle, jenž má specifikovaný termín splnění. Byl představen koncept sebe-učení (Self-Learning), kdy trénování modelu probíhá díky jedincům, kteří tento cíl splní předčasně. Díky malému počtu jedinců splňujících úlohu na začátku je problém silně nevyvážený, ale nevyváženost klesá směrem k termínu splnění. Na problému identifikace rizikových studentů distanční univerzity bylo ukázáno, že (1) takový koncept dává lepší výsledky než specifikovaná základna (baseline), (2) a že metody pro vypořádání se s nevyvážeností, které neberou v potaz informaci o doméně, nevedly k velkým zlepšením. Evaluace ukázala, že metody založené na znalosti domény v rozšířené verzi pro Self-Learning vylepšily klasifikaci více než běžné metody pro vypořádání se s nevyvážeností a že znalost příčiny nevyváženosti může vést k lepším výsledkům.
 
This thesis is focused on classification on unbalanced data. It is an important part of machine learning with the objective to address the issues when one class is significantly underrepresented compared to the other one. The minority class is usually more important, and the traditional algorithms favouring the majority class may ignore the importance of the minority class. Two application domains motivated the research and identification of two specific problems of the imbalanced data.  First, the presence of a constraint on the performance of a minority class in the computer security domain resulted in the formulation of the constrained classification problem. I proposed a solution that combines the cost-sensitive logistic regression and stochastic algorithms, which in the conducted experiments always improved the performance of the logistic regression.The domain of Learning Analytics motivated me to define a general prediction problem, whether a goal is has been achieved within the deadline. I designed the Self-Learning framework, in which models are trained by analysing attributes of objects that achieved the goal early in the investigated period. Because only a few objects satisfy the goal at the beginning, the problem is by its nature imbalanced, with the imbalance decreasing in time. The evaluation, performed on the task of identification of at-risk students in the distance higher education, showed (1) the predictive power compared the specified baseline models and (2) that methods for tackling the class imbalance without domain information didn't lead to significant improvements. When the domain information is utilised in the extended version of Self-Learning, the evaluation showed the performance increase.  Understanding and exploiting the source of imbalance can also lead to better results.
 
Keywords
Data mining, classification, imbalanced data, machine learning, data mining with constraints, time-variant imbalance ratio., Dolování z dat, klasifikace, nevyvážená data, strojové učení, dolování z dat s omezením, změna nevyváženosti v čase.
Language
angličtina (English)
Study brunch
Výpočetní technika a informatika
Result of the defence
práce byla úspěšně obhájena
URI
http://hdl.handle.net/11012/187323
Source
HLOSTA, M. Klasifikace na nevyvážených datech [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. .
Collections
  • 2017 [16]
Citace PRO

Portal of libraries | Central library on Facebook
DSpace software copyright © 2002-2015  DuraSpace
Kontakt z nami | Wyślij uwagi | Theme by @mire NV
 

 

Przeglądaj

Całe DSpaceZbiory i kolekcje Daty wydaniaAutorzyTytułyTematyTa kolekcjaDaty wydaniaAutorzyTytułyTematy

Moje konto

ZalogujZarejestruj

Statystyki

Przejrzyj statystyki użycia

Portal of libraries | Central library on Facebook
DSpace software copyright © 2002-2015  DuraSpace
Kontakt z nami | Wyślij uwagi | Theme by @mire NV