Využití neanotovaných dat pro trénování OCR

Loading...
Thumbnail Image
Date
ORCID
Mark
A
Journal Title
Journal ISSN
Volume Title
Publisher
Vysoké učení technické v Brně. Fakulta informačních technologií
Abstract
Vytvoření kvalitního systému rozpoznání textu (OCR) vyžaduje velké množství anotovaných dat. Získání, potažmo vytvoření anotací je nákladný proces. Tato práce se zabývá několika způsoby efektivního využití neanotovaných dat pro trénování OCR neuronové sítě. Navržené metody využívající neanotovaná data spadají do kategorie self-training algoritmů. Obecný postup navržených metod se dá sumarizovat tak, že nejprve je na omezeném množství anotovaných dat natrénován počáteční model neuronové sítě. Ten je následně spolu s jazykovým modelem použit k vygenerování pseudo-štítků neanotovaných dat. Takto strojově anotovaná data jsou zkombinována s trénovacími daty, která byla použita k vytvoření počátečního modelu a následně jsou využita k natrénování cílového modelu. Úspěšnost jednotlivých metod je měřena na ručně psaném ICFHR 2014 Bentham datasetu. Experimenty byly provedeny na dvou datových sadách, které reprezentují různou míru dostupnosti anotovaných dat. Nejlepší model trénovaný na malé datové sadě dosahuje 3.70 CER [%], což je relativní zlepšení o 42 % oproti počátečnímu modelu trénovanému pouze na anotovaných datech a nejlepší model trénovaný na velké datové sadě dosahuje 1.90 CER [%], což je relativní zlepšení o 26 % oproti počátečnímu modelu. Za pomocí navržených metod lze efektivně zvýšit úspěšnost OCR s využitím neanotovaných dat.
The creation of a high-quality optical character recognition system (OCR) requires a large amount of labeled data. Obtaining, or in other words creating, such a quantity of labeled data is a costly process. This thesis focuses on several methods which efficiently use unlabeled data for the training of an OCR neural network. The proposed methods fall into the category of self-training algorithms. The general approach of all proposed methods can be summarized as follows. Firstly, the seed model is trained on a limited amount of labeled data. Then, the seed model in combination with the language model is used for producing pseudo-labels for unlabeled data. Machine-labeled data are then combined with the training data used for the creation of the seed model and they are used again for the creation of the target model. The successfulness of individual methods is measured on the handwritten ICFHR 2014 Bentham dataset. Experiments were conducted on two datasets which represented different degrees of labeled data availability. The best model trained on the smaller dataset achieved 3.70 CER [%], which is a relative improvement of 42 % in comparison with the seed model, and the best model trained on the bigger dataset achieved 1.90 CER [%], which is a relative improvement of 26 % in comparison with the seed model. This thesis shows that the proposed methods can be efficiently used to improve the OCR error rate by means of unlabeled data.
Description
Citation
BUCHAL, P. Využití neanotovaných dat pro trénování OCR [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2021.
Document type
Document version
Date of access to the full text
Language of document
cs
Study field
Počítačová grafika a multimédia
Comittee
doc. RNDr. Pavel Smrž, Ph.D. (předseda) doc. Ing. Martin Čadík, Ph.D. (místopředseda) prof. RNDr. Milan Češka, CSc. (člen) Ing. Michal Hradiš, Ph.D. (člen) doc. Ing. Peter Chudý, Ph.D., MBA (člen) Ing. Igor Szőke, Ph.D. (člen)
Date of acceptance
2021-06-21
Defence
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A. Otázky u obhajoby: Jak dlouho trvá generování strojových anotací? Dotaz na posun na state-of-the-art pomocí prezentované metody. Dotaz na aplikaci prezentované práce. Dotaz na aplikaci v oblasti falsifikátů.
Result of defence
práce byla úspěšně obhájena
Document licence
Standardní licenční smlouva - přístup k plnému textu bez omezení
DOI
Collections
Citace PRO