Multimodální zpracování dat a mapování v robotice založené na strojovém učení

Abstract
Disertace se zabývá aplikaci neuronových sítí pro detekci objektů na multimodální data v robotice. Celkem cílí na tři oblasti: tvorbu datasetu, zpracování multimodálních dat a trénování neuronových sítí. Nejdůležitější části práce je návrh metody pro tvorbu rozsáhlých anotovaných datasetů bez časové náročného lidského zásahu. Metoda používá neuronové sítě trénované na RGB obrázcích. Užitím dat z několika snímačů pro vytvoření modelu okolí a mapuje anotace z RGB obrázků na jinou datovou doménu jako jsou termální obrázky, či mračna bodů. Pomoci této metody autor vytvořil dataset několika set tisíc anotovaných obrázků a použil je pro trénink neuronové sítě, která následně překonala modely trénované na menších, lidmi anotovaných datasetech. Dále se autor v práci zabývá robustností detekce objektů v několika datových doménách za různých povětrnostních podmínek. Práce také popisuje kompletní řetězec zpracování multimodálních dat, které autor vytvořil během svého doktorského studia. To Zahrnuje vývoj unikátního senzorického zařízení, které je vybavené řadou snímačů běžně užívaných v robotice. Dále autor popisuje proces tvorby rozsáhlého, veřejně dostupného datasetu Brno Urban Dataset. Na závěr autor popisuje software, který vznikl během jeho studia a jak je tento software užit při zpracování dat v rámci jeho práce (Atlas Fusion a Robotic Template Library).
This dissertation deals with the application of object detection neural networks on multimodal data in robotics. It aims at three topics: dataset-making, multimodal data processing, and neural network training. The most important is a proposed method that allows creating a large training dataset without an expensive and time-demanding human annotation. The method uses the neural network model trained on the RGB image data and uses multiple sensors' data to create the surrounding map and transfers the annotations of objects detected in the RGB image to the other data domain, like thermal images or point cloud data. Applying this approach, the author generated the thermal image dataset, which contained hundreds of thousands of annotated images, and used them to train the network that outperformed other models trained on human-annotated data. Moreover, the thesis also studies the robustness of object detection in various data domains during difficult weather conditions. The thesis also describes the entire multimodal data processing pipeline that the author created during his Ph.D. studies. That includes developing a unique sensory framework that employs a wide range of commonly used sensors in robotics and self-driving cars. Next, it describes the process of using the sensory framework to make a large-scale publically available open-source navigation and mapping dataset called Brno Urban Dataset. Finally, it covers the description of the custom-made software tools, the Atlas Fusion and the Robotic Template Libarary that the author used to manipulate the multimodal data.
Description
Citation
LIGOCKI, A. Multimodální zpracování dat a mapování v robotice založené na strojovém učení [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2021.
Document type
Document version
Date of access to the full text
Language of document
en
Study field
bez specializace
Comittee
prof. Ing. Pavel Jura, CSc. (předseda) plk. gšt. doc. Ing. Jan Mazal, Ph.D. (člen) prof. Ing. Martin Drahanský, Ph.D. (člen) prof. Ing. František Duchoň, Ph.D. - oponent (člen) doc. Ing. Martin Saska, Dr. rer. nat. - oponent (člen)
Date of acceptance
2021-12-20
Defence
Doktorand prezentoval ve vymezeném čase výsledky své práce a zodpověděl všechny dotazy jak členů komise, tak i ostatních přítomných.
Result of defence
práce byla úspěšně obhájena
Document licence
Standardní licenční smlouva - přístup k plnému textu bez omezení
DOI
Collections
Citace PRO