Classifier of astrophysics data

but.committeeprof. RNDr. Alexandr Meduna, CSc. (předseda) doc. Ing. Josef Schwarz, CSc. (místopředseda) Ing. Vladimír Bartík, Ph.D. (člen) Ing. Aleš Smrčka, Ph.D. (člen) Ing. Michal Španěl, Ph.D. (člen)cs
but.defenceStudent nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se pak seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A. Otázky u obhajoby: 1. Máte v plánu v tématu pokračovat a implementaci dále rozvíjet?cs
but.jazykangličtina (English)
but.programInformační technologiecs
but.resultpráce byla úspěšně obhájenacs
dc.contributor.advisorZendulka, Jaroslaven
dc.contributor.authorRylko, Vojtěchen
dc.contributor.refereeVrábelová, Pavlaen
dc.date.accessioned2020-06-23T08:02:53Z
dc.date.available2020-06-23T08:02:53Z
dc.date.created2012cs
dc.description.abstractCílem této práce je implementace algoritmu pro dolování z dat pro použítí v astrofyzice. V práci jsou představeny základní pojmy a principy dolování z dat. Zejména jeho obecná definice, rozlišení mezi klasifikací a regresí a vyhodnocování přesnosti modelu. Text se zabývá převážně učením s učitelem. Blíže představeny jsou algoritmy založené na rozhodovacích stromech. Je definován rozhodovací strom jako model a uveden obecný algoritmus pro tvorbu rozhodovacích stromů z dat. Jsou diskutována různá kritéria dělení v uzlech (zejména založená na etropii), kritéria pro ukončení růstu a ořezávání stromů. Pro ilustraci jsou uvedeny vybrané algoritmy - ID3, CART, RainForest a BOAT. Na dříve uvedených informacích je založena kapitola o souborech rozhodovacích stromů. Zabývá se základními způsoby jejich kombinací (bagging a arcing) . Detailněji je popsán obecný algoritmus náhodných lesů a RandomForest TM jako příklad jeho praktické realizace. Na základě srovnání algoritmů a provedených experimentů v literatuře jsou k implementaci vybrány náhodné lesy. Implementovaný algoritmus je detailněji popsán - k dělení uzlů používá Gini entropie a průměrnou kvadratickou chybu, ignoruje chybějící hodnoty a pro kombinaci výstupů jednotlivých stromů používá většinové hlasování / průměr. Jako formát vstupních a výstupních dat je zvolena podmnožina ARFF formátu. Architektura implementace je ilustrována UML diagramy s popisujícím komentářem. Jednotlivé aspekty implementace jsou stručně popsány - implementačním jazykem je C++11, je využívána knihovna Boost (zejména chytré ukazatele, serializace, nastavení parametrů a konfigurační soubory, ...) společně s dalšími volně dostupnými knihovnami (google-glog pro logování, googletest pro jednotkové testování, ...). Grafického výstupu je dosaženo tiskem modelu náhodného lesu do XML souboru a jeho transformací skriptem do jazyka DOT. Pro oveření validity a vlastností implementace a jejího srovnání s jinými implementacemi náhodných stromů (Waffles, RF-ACE a R - balíček randomForest) jsou navrženy, popsány a provedeny exprimenty: klasifikace astronomických těles na základě barevných indexů, regrese rudého posuvu na základě barevných indexů, osm klasifikačních a pět regresních experimentů na datech z UCI repository. Průběh experimentů je plně automatizován skripty (Bash, Python a R) a je měřena doba učení modelů. Z výsledků experimentů vyplývá, že autorova implementace si vedla výborně při klasifikaci a průměrně při regresi; z časového hlediska měla problémy při datech s mnoha instancemi. Výsledkem práce je zdokumentovaná, snadno rozšiřitelná implementace náhodných lesů v jazyce C++ s grafickým znázorněním modelu, mnoha možnostmi nastavení a experimentálně ověřenou funkčností. Diskuze o dalším možném pokračování projektu se zabývá zejména odstraněním problemů s časovou náročností a přídáním nových funkcionalit.en
dc.description.abstractThis bachelor thesis describes selection, design and implementation of a data mining algoritm for astrophysical usage.     The implementation of the random decision forests algorithm in C++ is evaluated on two astrophysical and some general experiments. Experiments are both classification and regression with time measuring. For comparison another three implementations are evaluated.     The resulting implementation shows good results mainly in classification.cs
dc.description.markAcs
dc.identifier.citationRYLKO, V. Classifier of astrophysics data [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2012.cs
dc.identifier.other79017cs
dc.identifier.urihttp://hdl.handle.net/11012/55237
dc.language.isoencs
dc.publisherVysoké učení technické v Brně. Fakulta informačních technologiícs
dc.rightsStandardní licenční smlouva - přístup k plnému textu bez omezenícs
dc.subjectdolování z daten
dc.subjectstrojové učeníen
dc.subjectrozhodovací stromyen
dc.subjectnáhodné lesyen
dc.subjectastrofyzikaen
dc.subjectastroinformatikaen
dc.subjectC++en
dc.subjectdata miningcs
dc.subjectmachine learningcs
dc.subjectdecision treescs
dc.subjectrandom decision forestscs
dc.subjectastrophysicscs
dc.subjectastroinformaticscs
dc.subjectC++cs
dc.titleClassifier of astrophysics dataen
dc.title.alternativeClassifier of astrophysics datacs
dc.typeTextcs
dc.type.driverbachelorThesisen
dc.type.evskpbakalářská prácecs
dcterms.dateAccepted2012-06-13cs
dcterms.modified2020-05-09-23:43:22cs
eprints.affiliatedInstitution.facultyFakulta informačních technologiícs
sync.item.dbid79017en
sync.item.dbtypeZPen
sync.item.insts2021.11.12 19:59:05en
sync.item.modts2021.11.12 19:47:18en
thesis.disciplineInformační technologiecs
thesis.grantorVysoké učení technické v Brně. Fakulta informačních technologií. Ústav informačních systémůcs
thesis.levelBakalářskýcs
thesis.nameBc.cs
Files
Original bundle
Now showing 1 - 2 of 2
Loading...
Thumbnail Image
Name:
final-thesis.pdf
Size:
973.08 KB
Format:
Adobe Portable Document Format
Description:
final-thesis.pdf
Loading...
Thumbnail Image
Name:
review_79017.html
Size:
1.43 KB
Format:
Hypertext Markup Language
Description:
review_79017.html
Collections