Posilované učení pro hraní robotického fotbalu

Loading...
Thumbnail Image
Date
ORCID
Mark
B
Journal Title
Journal ISSN
Volume Title
Publisher
Vysoké učení technické v Brně. Fakulta informačních technologií
Abstract
Tato práce se zabývá vytvořením agenta pro hraní robotického fotbalu. V práci používám metodu hlubokého Q-učení, která využívá hlubokou neuronovou síť. Praktická část práce se zabývá implementací agenta pro posilované učení. Cílem agenta je vybrat nejlepší akci pro daný stav prostředí. Trénování agenta probíhá v různých scénářích situací na hřišti. Výsledek této práce ukazuje přístup k hraní fotbalu pomocí strojového učení.
The aim of this thesis is to create a reinforcement learning agent that is able to play a soccer. I'm working with the deep Q-learning algorithm, which uses deep neural network. The practical part of this work is about implementing the agent for reinforcement learning. The goal of the agent is to choose the best action possible for a given situation. The agent is being trained in a variety of scenarios. The result of this thesis shows an approach to control soccer player using machine learning.
Description
Citation
BRYCHTA, A. Posilované učení pro hraní robotického fotbalu [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2020.
Document type
Document version
Date of access to the full text
Language of document
cs
Study field
Informační technologie
Comittee
doc. Ing. František Zbořil, Ph.D. (předseda) doc. Mgr. Adam Rogalewicz, Ph.D. (místopředseda) Ing. Matěj Grégr, Ph.D. (člen) Ing. Michal Hradiš, Ph.D. (člen) Ing. Lukáš Kekely, Ph.D. (člen)
Date of acceptance
2020-07-13
Defence
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm B. Otázky u obhajoby: Jsou akce v rozhraní Simple Football Environment namapovány 1:1 pro Google Football? Jak složité je rozhraní rozšířit na RoboCup? Jak jste dospěl ve funkci odměny ke koeficientům značícím jednotlivé odměny pro akce? Uvažoval jste o zkombinování zmíněných třech funkcí odměny? V jakém složení hrají týmy v testovacích scénářích? Kolik je hráčů na hřišti? Obsahuje váš agent stavy? Proč vaše experimenty končí před "konvergencí"? Je to úmyslně? Jak jste porovnával vašeho agenta s ostatními?
Result of defence
práce byla úspěšně obhájena
Document licence
Standardní licenční smlouva - přístup k plnému textu bez omezení
DOI
Collections
Citace PRO