Použití self-supervised learning pro rozpoznání sportovních pozic v obraze

Loading...
Thumbnail Image
Date
ORCID
Mark
A
Journal Title
Journal ISSN
Volume Title
Publisher
Vysoké učení technické v Brně. Fakulta informačních technologií
Abstract
Táto práca demonštruje spôsob, ako minimalizovať množstvo potrebných označených trénovacích dát pri klasifikácií športových pozícií s použitím neurónovej siete trénovanej metódou contrastive self-supervised learning. Trénovanie prebieha v dvoch etapách. V prvej sa trénuje extraktor príznakov, ktorý využíva neoznačené trénovacie obrázky extrahované z nahrávok cvičení z viacerých uhlov. V druhej etape sa s využitím malého množstva označených dát trénuje jednoduchý klasifikátor napojený na extraktor príznakov. Práca pojednáva o klasifikácií v kontexte jogových póz, avšak výsledné riešenie sa dá jednoducho aplikovať aj na iné športy v prípade získania vhodnej dátovej sady. Pri návrhu riešenia je kladený dôraz na výkon výsledného modelu, aby mohol byť použiteľný v mobilných zariadeniach. Výsledný model na dátovej sade so štyrmi označenými obrázkami na každú jogovú pózu dosiahol s využitím augmentácií vstupných dát úspešnosť 76 %. Na väčšej dátovej sade s 800 označenými obrázkami na všetky pozície je úspešnosť 82 %.
This thesis demonstrates a solution for minimizing the amount of necessary labelled training data in the classification of sports poses using a neural network trained with contrastive self-supervised learning. Training consists of two stages. The first stage trains a feature extractor which uses unlabelled training images extracted from recordings of exercises from multiple viewpoints. In the second stage, using a small amount of labelled data, a simple classifier connected to the feature extractor is trained. The thesis discusses classification in the context of yoga poses, however, the final solution can be easily applied to any other sport in case of obtaining a suitable dataset. During the development of the solution, emphasis is placed on the performance of the resulting model so that it can be used on mobile devices. The resulting model reached an accuracy of 76 % using augmentations with a data set containing four labelled images per yoga pose. On a larger data set with 800 labelled images for all poses, an accuracy of 82 % is reached. 
Description
Citation
OLEKŠÁK, S. Použití self-supervised learning pro rozpoznání sportovních pozic v obraze [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2022.
Document type
Document version
Date of access to the full text
Language of document
cs
Study field
Informační technologie
Comittee
prof. Dr. Ing. Pavel Zemčík, dr. h. c. (předseda) doc. Ing. Lukáš Burget, Ph.D. (místopředseda) doc. Mgr. Lukáš Holík, Ph.D. (člen) Ing. Tomáš Martínek, Ph.D. (člen) doc. Ing. Petr Matoušek, Ph.D., M.A. (člen)
Date of acceptance
2022-06-14
Defence
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A. Otázky u obhajoby: Aké výsledky by dokázal obdobný klasifikátor dosiahnúť bez využitia predtrénovania pomocou kontrastívneho učenia priamo na výstupoch siete pre detekciu kľúčových bodov trénovaný len na anotovaných sadách s augmentáciou? V dátovej sade sa vyskytuje zdanlivo iba jedna osoba. Aký to podľa Vás môže mať vplyv na výsledky experimentov? Malo by podľa Vás trénovanie vlastného CNN príznakového extraktora, ktorý ma na vstupe priamo obrázok pri tejto úlohe zmysel?
Result of defence
práce byla úspěšně obhájena
Document licence
Standardní licenční smlouva - přístup k plnému textu bez omezení
DOI
Collections
Citace PRO