Show simple item record

Classification on unbalanced data

dc.contributor.advisorZendulka, Jaroslaven
dc.contributor.authorHlosta, Martinen
dc.date.accessioned2021-11-22T11:58:37Z
dc.date.available2021-11-22T11:58:37Z
dc.date.createdcs
dc.identifier.citationHLOSTA, M. Klasifikace na nevyvážených datech [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. .cs
dc.identifier.other128200cs
dc.identifier.urihttp://hdl.handle.net/11012/187323
dc.description.abstractTématem této disertační práce je klasifikace daty s nevyváženými daty. Jedná se o oblast strojového, jejímž cílem je řešit problémy, které plynou z toho, že jedna ze tříd je v datech zastoupena výrazně méně než třída druhá. Minoritní třída má často větší význam a tradiční metody upřednostňující majoritní třídu nedosahují dobrých výsledků na třídě minoritní. Dvě aplikační domény motivovaly výzkum a vedly na identifikaci dvou specifických, dosud neřešených problémů.  V první z nich vedlo omezení kladené na minimální požadovanou přesnost na minoritní třídě v počítačové bezpečnosti na formulaci úlohy klasifikace s omezením. Navrhl jsem metodu, která kombinuje upravenou verzi logistické regrese a stochastické algoritmy, které vždy vylepšily výsledky logistické regrese.Druhou je doména analýzy učení (Learning Analytics), která motivovala definici problému predikce splnění cíle, jenž má specifikovaný termín splnění. Byl představen koncept sebe-učení (Self-Learning), kdy trénování modelu probíhá díky jedincům, kteří tento cíl splní předčasně. Díky malému počtu jedinců splňujících úlohu na začátku je problém silně nevyvážený, ale nevyváženost klesá směrem k termínu splnění. Na problému identifikace rizikových studentů distanční univerzity bylo ukázáno, že (1) takový koncept dává lepší výsledky než specifikovaná základna (baseline), (2) a že metody pro vypořádání se s nevyvážeností, které neberou v potaz informaci o doméně, nevedly k velkým zlepšením. Evaluace ukázala, že metody založené na znalosti domény v rozšířené verzi pro Self-Learning vylepšily klasifikaci více než běžné metody pro vypořádání se s nevyvážeností a že znalost příčiny nevyváženosti může vést k lepším výsledkům.en
dc.description.abstractThis thesis is focused on classification on unbalanced data. It is an important part of machine learning with the objective to address the issues when one class is significantly underrepresented compared to the other one. The minority class is usually more important, and the traditional algorithms favouring the majority class may ignore the importance of the minority class. Two application domains motivated the research and identification of two specific problems of the imbalanced data.  First, the presence of a constraint on the performance of a minority class in the computer security domain resulted in the formulation of the constrained classification problem. I proposed a solution that combines the cost-sensitive logistic regression and stochastic algorithms, which in the conducted experiments always improved the performance of the logistic regression.The domain of Learning Analytics motivated me to define a general prediction problem, whether a goal is has been achieved within the deadline. I designed the Self-Learning framework, in which models are trained by analysing attributes of objects that achieved the goal early in the investigated period. Because only a few objects satisfy the goal at the beginning, the problem is by its nature imbalanced, with the imbalance decreasing in time. The evaluation, performed on the task of identification of at-risk students in the distance higher education, showed (1) the predictive power compared the specified baseline models and (2) that methods for tackling the class imbalance without domain information didn't lead to significant improvements. When the domain information is utilised in the extended version of Self-Learning, the evaluation showed the performance increase.  Understanding and exploiting the source of imbalance can also lead to better results.cs
dc.language.isoencs
dc.publisherVysoké učení technické v Brně. Fakulta informačních technologiícs
dc.rightsStandardní licenční smlouva - přístup k plnému textu bez omezenícs
dc.subjectData miningcs
dc.subjectclassificationcs
dc.subjectimbalanced datacs
dc.subjectmachine learningcs
dc.subjectdata mining with constraintscs
dc.subjecttime-variant imbalance ratio.cs
dc.subjectDolování z daten
dc.subjectklasifikaceen
dc.subjectnevyvážená dataen
dc.subjectstrojové učeníen
dc.subjectdolování z dat s omezenímen
dc.subjectzměna nevyváženosti v čase.en
dc.titleKlasifikace na nevyvážených datechen
dc.title.alternativeClassification on unbalanced datacs
dc.typeTextcs
dcterms.modified2020-05-10-17:46:47cs
thesis.disciplineVýpočetní technika a informatikacs
thesis.grantorVysoké učení technické v Brně. Fakulta informačních technologií. Ústav informačních systémůcs
thesis.levelDoktorskýcs
thesis.namePh.D.cs
sync.item.dbid128200en
sync.item.dbtypeZPen
sync.item.insts2021.11.22 12:58:37en
sync.item.modts2021.11.22 12:14:13en
eprints.affiliatedInstitution.facultyFakulta informačních technologiícs
dc.contributor.refereePopelínský, Lubomíren
dc.contributor.refereeŠtěpánková,, Olgaen
dc.description.markPcs
dc.type.driverdoctoralThesisen
dc.type.evskpdizertační prácecs
but.resultpráce byla úspěšně obhájenacs
but.programVýpočetní technika a informatikacs
but.jazykangličtina (English)


Files in this item

Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail

This item appears in the following Collection(s)

Show simple item record