Zvyšování konzistence v datových sadách pro rozpoznávání textu

Loading...
Thumbnail Image
Date
ORCID
Mark
C
Journal Title
Journal ISSN
Volume Title
Publisher
Vysoké učení technické v Brně. Fakulta informačních technologií
Abstract
Táto práca sa zaoberá zvyšovaním konzistencie dátových sád pre rozpoznávanie textu. V tejto práci sú popísane problémy, ktoré nekonzistenciu spôsobujú a následne sú predstavené riešenia na jej odstránenie. Skúmaný je vplyv vlastností polygónov definujúcich ohraničenie riadkov a teda to ako upravená verzia dátovej sady, ktorá je zložená z ideálnych variant riadkov ovplyvnila presnosť modelu. Ďalej sa práca zameriava na detekciu a následné odstránenie alebo upravenie riadkov, ktorých prepis ground truth nekorešponduje so skutočným textom, ktorý sa na nich nachádza. Experimentovaním sa ukázalo, že odstránenie vizuálnej nekonzistencie na trénovacej sade nemá zásadný vplyv na natrénovanosť modelu, za to poupravením testovacej sady sa presnosť OCR modelu zlepšila o 1.1\% CER. Upravením dátovej sady tak, aby neobsahovala navzájom nekonzistentné dvojice rozpoznávaného textu a príslušnej ground truth, sa model po opätovnom natrénovaní zlepšil maximálne len o 0.2\% CER. Hlavným zistením tejto práce je predovšetkým preukázaný priaznivý účinok odstránenia nekonzistencie na testovacích sadách, vďaka ktorému je možné zistiť reálnejšiu chybovosť OCR modelu.
This work is concerned with increasing the consistency of datasets for text recognition. This paper describes the problems that cause the inconsistency and then presents solutions to eliminate it. The effect of the properties of the polygons defining the text line boundaries and hence how the modified version of the dataset, which is composed of ideal text line variants, affected the accuracy of the model is investigated. Further, the work focuses on detecting and then removing or modifying text lines whose ground truth transcription does not match the actual text they contain. Experimentation showed that removing the visual inconsistency on the training set did not have a significant effect on the trained model, but modifying the test set improved the OCR accuracy of the model by 1.1\% CER. By modifying the dataset so that it did not contain mutually inconsistent pairs of recognized text and the corresponding ground truth, the model improved by a maximum of only 0.2\% CER after re-training. The main finding of this work is, above all, the proven beneficial effect of removing inconsistencies on test suites, thanks to which it is possible to determine a more realistic error rate of the OCR model.
Description
Citation
TVAROŽNÝ, M. Zvyšování konzistence v datových sadách pro rozpoznávání textu [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2022.
Document type
Document version
Date of access to the full text
Language of document
cs
Study field
Informační technologie
Comittee
prof. Dr. Ing. Pavel Zemčík, dr. h. c. (předseda) doc. Ing. Lukáš Burget, Ph.D. (místopředseda) doc. Mgr. Lukáš Holík, Ph.D. (člen) Ing. Tomáš Martínek, Ph.D. (člen) doc. Ing. Petr Matoušek, Ph.D., M.A. (člen)
Date of acceptance
2022-06-14
Defence
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm C. Otázky u obhajoby: Máte odhad skutečné chybovosti přepisů v použité datové sadě? Jak ovlivňuje detekci chybných přepisů fakt, že využíváte neuronovou síť, která byla na těchto přepisech trénována? Jestli to chápu dobře, výsledky Tabulky 6.3 jsou na řádcích již filtrovaných na rozdílnosti výstupů neuronové sítě vůči přepisům. Jak tento fakt ovlivňuje interpretaci těchto výsledků.
Result of defence
práce byla úspěšně obhájena
Document licence
Standardní licenční smlouva - přístup k plnému textu bez omezení
DOI
Collections
Citace PRO