Posilované učení pro hru typu Bomberman

Loading...
Thumbnail Image
Date
ORCID
Mark
C
Journal Title
Journal ISSN
Volume Title
Publisher
Vysoké učení technické v Brně. Fakulta informačních technologií
Abstract
Cieľom tejto bakalárksej práce je návrh, implementácia a trénovanie modelov posilňovaného učenia na hru typu Bomberman. Je postavená na prostredí Bomberland od firmy CoderOne. Toto prostredie bolo vyvinuté za účelom vzdelávania a výskumu v odvetí umelej inteligencie. V tejto práci rozoberám rôzne nastavenia a problémy s implementovaním agenta do prostredia. Vyskúšal som 2 politiky (MLP a CNN), 2 algoritmy (PPO a A2C) a 5 druhov neurónových sietí pre extrakciu vlastností za pomoci knižníc stable baselines 3 a pytorch. Celkový čas trénovania týchto modelov bol dokopy 1207 reálnych hodín, 4168 strojových hodín a 271 miliónov herných krokov. Aj keď bolo trénovanie neúspešné, táto práca ukazuje proces implementácie modelu posilňovaného učenia do prostredia Gym.
This bachelor's thesis aims to develop, implement and train reinforcement learning models for a Bomberman-type game. It is based on Bomberland environment from CoderOne. This environment was created for education and research in the field of artificial intelligence. In this thesis I tackle the settings and problems of implementing agent into the environment. I used 2 policies (MLP and CNN), 2 algorithms (PPO and A2C) and 5 setups of neural networks for feature extraction with the use of libraries stable baselines 3 and pytorch. Total training time resulted in 1207 real-world hours, 4168 computing hours and 271 milions of time steps. Although the training was not successful, this thesis shows the process of implementing a reinforcement learning model into a Gym environment.
Description
Citation
ADAMČIAK, J. Posilované učení pro hru typu Bomberman [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2022.
Document type
Document version
Date of access to the full text
Language of document
cs
Study field
Informační technologie
Comittee
doc. RNDr. Pavel Smrž, Ph.D. (předseda) doc. RNDr. Jitka Kreslíková, CSc. (místopředseda) Ing. Ivana Burgetová, Ph.D. (člen) Ing. Aleš Smrčka, Ph.D. (člen) Ing. Josef Strnadel, Ph.D. (člen)
Date of acceptance
2022-06-16
Defence
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm C. Otázky u obhajoby: Jaké by bylo nastavení toho nejjednoduššího prostředí, metod, jejich parametrů, abyste ověřil funkčnost systému a schopnosti úspěšného naučení agenta? Kde vidíte klíčové problémy ve Vašem postupu, že se Vám nepodařilo natrénovat úspěšného agenta? Co vás vedlo k výběru prostředí, které jste použil?
Result of defence
práce byla úspěšně obhájena
Document licence
Standardní licenční smlouva - přístup k plnému textu bez omezení
DOI
Collections
Citace PRO