Hraní nedeterministických her s učením
Playing of Nondeterministic Games with Learning
Author
Advisor
Zbořil, FrantišekReferee
Rozman, JaroslavGrade
CAltmetrics
Metadata
Show full item recordAbstract
Práce se věnuje studiu a implementaci metod použitých pro učení z průběhu hraní. Zvolenou hrou pro tuhle práci jsou Vrhcáby. Algoritmus použitý pro učení neuronové sítě se nazývá učení z časového rozdílu s použitím stop vhodnosti. Tento algoritmus je známý i pod jménem TD(lambda). V teoretické části práce jsou popsány algoritmy pro hraní her bez učení, úvod do posilovaného učení, učení z časových rozdílů a úvod do umělých úvod neuronových sítí. Praktická část se zabývá aplikováním kombinace neuronových sítí a TD(lambda) algoritmů. The thesis is dedicated to the study and implementation of methods used for learning from the course of playing. The chosen game for this thesis is Backgammon. The algorithm used for training neural networks is called the temporal difference learning with use of eligible traces. This algorithm is also known as TD(lambda). The theoretical part describes algorithms for playing games without learning, introduction to reinforcement learning, temporal difference learning and introduction to artificial neural networks. The practical part deals with application of combination of neural networks and TD(lambda) algorithms.
Keywords
Vrhcáby, nedeterministické hry, umělé neurónové sítě, posilované učení, učení z časového rozdílu, hraní her s učením, Backgammon, nondeterministic games, artificial neural network, reinforcement learning, temporal difference learning, playing games with learningLanguage
čeština (Czech)Study brunch
Inteligentní systémyComposition of Committee
prof. RNDr. Milan Češka, CSc. (předseda) doc. Ing. Vladimír Janoušek, Ph.D. (místopředseda) Ing. Ivana Burgetová, Ph.D. (člen) Doc. Ing. Zdeněk Havlice, CSc. (člen) doc. Ing. Jan Kořenek, Ph.D. (člen) Dr. Ing. Petr Peringer (člen)Date of defence
2011-06-21Process of defence
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se pak seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm C.Result of the defence
práce byla úspěšně obhájenaPersistent identifier
http://hdl.handle.net/11012/54193Source
BUKOVSKÝ, M. Hraní nedeterministických her s učením [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2011.Collections
- 2011 [229]