Posilované učení pro hru typu Bomberman
Reinforcement Learning for Bomberman Type Game

Author
Advisor
Hradiš, MichalReferee
Beran, VítězslavGrade
CAltmetrics
Metadata
Show full item recordAbstract
Cieľom tejto bakalárksej práce je návrh, implementácia a trénovanie modelov posilňovaného učenia na hru typu Bomberman. Je postavená na prostredí Bomberland od firmy CoderOne. Toto prostredie bolo vyvinuté za účelom vzdelávania a výskumu v odvetí umelej inteligencie. V tejto práci rozoberám rôzne nastavenia a problémy s implementovaním agenta do prostredia. Vyskúšal som 2 politiky (MLP a CNN), 2 algoritmy (PPO a A2C) a 5 druhov neurónových sietí pre extrakciu vlastností za pomoci knižníc stable baselines 3 a pytorch. Celkový čas trénovania týchto modelov bol dokopy 1207 reálnych hodín, 4168 strojových hodín a 271 miliónov herných krokov. Aj keď bolo trénovanie neúspešné, táto práca ukazuje proces implementácie modelu posilňovaného učenia do prostredia Gym. This bachelor's thesis aims to develop, implement and train reinforcement learning models for a Bomberman-type game. It is based on Bomberland environment from CoderOne. This environment was created for education and research in the field of artificial intelligence. In this thesis I tackle the settings and problems of implementing agent into the environment. I used 2 policies (MLP and CNN), 2 algorithms (PPO and A2C) and 5 setups of neural networks for feature extraction with the use of libraries stable baselines 3 and pytorch. Total training time resulted in 1207 real-world hours, 4168 computing hours and 271 milions of time steps. Although the training was not successful, this thesis shows the process of implementing a reinforcement learning model into a Gym environment.
Keywords
umelá inteligencia, AI, strojové učenie, ML, posilované učenie, RL, konvolučné neurónové siete, CNN, PPO, A2C, python, stable baselines3, ai-gym, pytorch, hry, bomberman, artificial inteligence, AI, machine learning, ML, reinforcement learning, RL, convolutional neural networks, CNN, PPO, A2C, python, stable baselines3, ai-gym, pytorch, games, bombermanLanguage
čeština (Czech)Study brunch
Informační technologieComposition of Committee
doc. RNDr. Pavel Smrž, Ph.D. (předseda) doc. RNDr. Jitka Kreslíková, CSc. (místopředseda) Ing. Ivana Burgetová, Ph.D. (člen) Ing. Aleš Smrčka, Ph.D. (člen) Ing. Josef Strnadel, Ph.D. (člen)Date of defence
2022-06-16Process of defence
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm C. Otázky u obhajoby: Jaké by bylo nastavení toho nejjednoduššího prostředí, metod, jejich parametrů, abyste ověřil funkčnost systému a schopnosti úspěšného naučení agenta? Kde vidíte klíčové problémy ve Vašem postupu, že se Vám nepodařilo natrénovat úspěšného agenta? Co vás vedlo k výběru prostředí, které jste použil?Result of the defence
práce byla úspěšně obhájenaPersistent identifier
http://hdl.handle.net/11012/207436Source
ADAMČIAK, J. Posilované učení pro hru typu Bomberman [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2022.Collections
- 2022 [309]