Využití neanotovaných dat pro trénování OCR

but.committeedoc. RNDr. Pavel Smrž, Ph.D. (předseda) doc. Ing. Martin Čadík, Ph.D. (místopředseda) prof. RNDr. Milan Češka, CSc. (člen) Ing. Michal Hradiš, Ph.D. (člen) doc. Ing. Peter Chudý, Ph.D., MBA (člen) Ing. Igor Szőke, Ph.D. (člen)cs
but.defenceStudent nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A. Otázky u obhajoby: Jak dlouho trvá generování strojových anotací? Dotaz na posun na state-of-the-art pomocí prezentované metody. Dotaz na aplikaci prezentované práce. Dotaz na aplikaci v oblasti falsifikátů.cs
but.jazykčeština (Czech)
but.programInformační technologiecs
but.resultpráce byla úspěšně obhájenacs
dc.contributor.advisorHradiš, Michalcs
dc.contributor.authorBuchal, Petrcs
dc.contributor.refereeDobeš, Petrcs
dc.date.accessioned2021-06-25T07:55:46Z
dc.date.available2021-06-25T07:55:46Z
dc.date.created2021cs
dc.description.abstractVytvoření kvalitního systému rozpoznání textu (OCR) vyžaduje velké množství anotovaných dat. Získání, potažmo vytvoření anotací je nákladný proces. Tato práce se zabývá několika způsoby efektivního využití neanotovaných dat pro trénování OCR neuronové sítě. Navržené metody využívající neanotovaná data spadají do kategorie self-training algoritmů. Obecný postup navržených metod se dá sumarizovat tak, že nejprve je na omezeném množství anotovaných dat natrénován počáteční model neuronové sítě. Ten je následně spolu s jazykovým modelem použit k vygenerování pseudo-štítků neanotovaných dat. Takto strojově anotovaná data jsou zkombinována s trénovacími daty, která byla použita k vytvoření počátečního modelu a následně jsou využita k natrénování cílového modelu. Úspěšnost jednotlivých metod je měřena na ručně psaném ICFHR 2014 Bentham datasetu. Experimenty byly provedeny na dvou datových sadách, které reprezentují různou míru dostupnosti anotovaných dat. Nejlepší model trénovaný na malé datové sadě dosahuje 3.70 CER [%], což je relativní zlepšení o 42 % oproti počátečnímu modelu trénovanému pouze na anotovaných datech a nejlepší model trénovaný na velké datové sadě dosahuje 1.90 CER [%], což je relativní zlepšení o 26 % oproti počátečnímu modelu. Za pomocí navržených metod lze efektivně zvýšit úspěšnost OCR s využitím neanotovaných dat.cs
dc.description.abstractThe creation of a high-quality optical character recognition system (OCR) requires a large amount of labeled data. Obtaining, or in other words creating, such a quantity of labeled data is a costly process. This thesis focuses on several methods which efficiently use unlabeled data for the training of an OCR neural network. The proposed methods fall into the category of self-training algorithms. The general approach of all proposed methods can be summarized as follows. Firstly, the seed model is trained on a limited amount of labeled data. Then, the seed model in combination with the language model is used for producing pseudo-labels for unlabeled data. Machine-labeled data are then combined with the training data used for the creation of the seed model and they are used again for the creation of the target model. The successfulness of individual methods is measured on the handwritten ICFHR 2014 Bentham dataset. Experiments were conducted on two datasets which represented different degrees of labeled data availability. The best model trained on the smaller dataset achieved 3.70 CER [%], which is a relative improvement of 42 % in comparison with the seed model, and the best model trained on the bigger dataset achieved 1.90 CER [%], which is a relative improvement of 26 % in comparison with the seed model. This thesis shows that the proposed methods can be efficiently used to improve the OCR error rate by means of unlabeled data.en
dc.description.markAcs
dc.identifier.citationBUCHAL, P. Využití neanotovaných dat pro trénování OCR [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2021.cs
dc.identifier.other136834cs
dc.identifier.urihttp://hdl.handle.net/11012/200204
dc.language.isocscs
dc.publisherVysoké učení technické v Brně. Fakulta informačních technologiícs
dc.rightsStandardní licenční smlouva - přístup k plnému textu bez omezenícs
dc.subjectneuronová síťcs
dc.subjectrozpoznání textucs
dc.subjectself-trainingcs
dc.subjectneanotovaná datacs
dc.subjectjazykový modelcs
dc.subjectneural networken
dc.subjecttext recognitionen
dc.subjectself-trainingen
dc.subjectunlabeled dataen
dc.subjectlanguage modelen
dc.titleVyužití neanotovaných dat pro trénování OCRcs
dc.title.alternativeOCR Trained with Unanotated Dataen
dc.typeTextcs
dc.type.drivermasterThesisen
dc.type.evskpdiplomová prácecs
dcterms.dateAccepted2021-06-21cs
dcterms.modified2021-06-24-11:34:36cs
eprints.affiliatedInstitution.facultyFakulta informačních technologiícs
sync.item.dbid136834en
sync.item.dbtypeZPen
sync.item.insts2021.11.12 16:14:42en
sync.item.modts2021.11.12 15:45:40en
thesis.disciplinePočítačová grafika a multimédiacs
thesis.grantorVysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédiícs
thesis.levelInženýrskýcs
thesis.nameIng.cs
Files
Original bundle
Now showing 1 - 4 of 4
Loading...
Thumbnail Image
Name:
final-thesis.pdf
Size:
2.98 MB
Format:
Adobe Portable Document Format
Description:
final-thesis.pdf
Loading...
Thumbnail Image
Name:
Posudek-Vedouci prace-24175_v.pdf
Size:
85.69 KB
Format:
Adobe Portable Document Format
Description:
Posudek-Vedouci prace-24175_v.pdf
Loading...
Thumbnail Image
Name:
Posudek-Oponent prace-24175_o.pdf
Size:
89.28 KB
Format:
Adobe Portable Document Format
Description:
Posudek-Oponent prace-24175_o.pdf
Loading...
Thumbnail Image
Name:
review_136834.html
Size:
1.44 KB
Format:
Hypertext Markup Language
Description:
review_136834.html
Collections