but.committee	doc. RNDr. Pavel Smrž, Ph.D. (předseda) doc. Ing. Martin Čadík, Ph.D. (místopředseda) prof. RNDr. Milan Češka, CSc. (člen) Ing. Michal Hradiš, Ph.D. (člen) doc. Ing. Peter Chudý, Ph.D., MBA (člen) Ing. Igor Szőke, Ph.D. (člen)	cs
but.defence	Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A. Otázky u obhajoby: Jak dlouho trvá generování strojových anotací? Dotaz na posun na state-of-the-art pomocí prezentované metody. Dotaz na aplikaci prezentované práce. Dotaz na aplikaci v oblasti falsifikátů.	cs
but.jazyk	čeština (Czech)
but.program	Informační technologie	cs
but.result	práce byla úspěšně obhájena	cs
dc.contributor.advisor	Hradiš, Michal	cs
dc.contributor.author	Buchal, Petr	cs
dc.contributor.referee	Dobeš, Petr	cs
dc.date.accessioned	2021-06-25T07:55:46Z
dc.date.available	2021-06-25T07:55:46Z
dc.date.created	2021	cs
dc.description.abstract	Vytvoření kvalitního systému rozpoznání textu (OCR) vyžaduje velké množství anotovaných dat. Získání, potažmo vytvoření anotací je nákladný proces. Tato práce se zabývá několika způsoby efektivního využití neanotovaných dat pro trénování OCR neuronové sítě. Navržené metody využívající neanotovaná data spadají do kategorie self-training algoritmů. Obecný postup navržených metod se dá sumarizovat tak, že nejprve je na omezeném množství anotovaných dat natrénován počáteční model neuronové sítě. Ten je následně spolu s jazykovým modelem použit k vygenerování pseudo-štítků neanotovaných dat. Takto strojově anotovaná data jsou zkombinována s trénovacími daty, která byla použita k vytvoření počátečního modelu a následně jsou využita k natrénování cílového modelu. Úspěšnost jednotlivých metod je měřena na ručně psaném ICFHR 2014 Bentham datasetu. Experimenty byly provedeny na dvou datových sadách, které reprezentují různou míru dostupnosti anotovaných dat. Nejlepší model trénovaný na malé datové sadě dosahuje 3.70 CER [%], což je relativní zlepšení o 42 % oproti počátečnímu modelu trénovanému pouze na anotovaných datech a nejlepší model trénovaný na velké datové sadě dosahuje 1.90 CER [%], což je relativní zlepšení o 26 % oproti počátečnímu modelu. Za pomocí navržených metod lze efektivně zvýšit úspěšnost OCR s využitím neanotovaných dat.	cs
dc.description.abstract	The creation of a high-quality optical character recognition system (OCR) requires a large amount of labeled data. Obtaining, or in other words creating, such a quantity of labeled data is a costly process. This thesis focuses on several methods which efficiently use unlabeled data for the training of an OCR neural network. The proposed methods fall into the category of self-training algorithms. The general approach of all proposed methods can be summarized as follows. Firstly, the seed model is trained on a limited amount of labeled data. Then, the seed model in combination with the language model is used for producing pseudo-labels for unlabeled data. Machine-labeled data are then combined with the training data used for the creation of the seed model and they are used again for the creation of the target model. The successfulness of individual methods is measured on the handwritten ICFHR 2014 Bentham dataset. Experiments were conducted on two datasets which represented different degrees of labeled data availability. The best model trained on the smaller dataset achieved 3.70 CER [%], which is a relative improvement of 42 % in comparison with the seed model, and the best model trained on the bigger dataset achieved 1.90 CER [%], which is a relative improvement of 26 % in comparison with the seed model. This thesis shows that the proposed methods can be efficiently used to improve the OCR error rate by means of unlabeled data.	en
dc.description.mark	A	cs
dc.identifier.citation	BUCHAL, P. Využití neanotovaných dat pro trénování OCR [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2021.	cs
dc.identifier.other	136834	cs
dc.identifier.uri	http://hdl.handle.net/11012/200204
dc.language.iso	cs	cs
dc.publisher	Vysoké učení technické v Brně. Fakulta informačních technologií	cs
dc.rights	Standardní licenční smlouva - přístup k plnému textu bez omezení	cs
dc.subject	neuronová síť	cs
dc.subject	rozpoznání textu	cs
dc.subject	self-training	cs
dc.subject	neanotovaná data	cs
dc.subject	jazykový model	cs
dc.subject	neural network	en
dc.subject	text recognition	en
dc.subject	self-training	en
dc.subject	unlabeled data	en
dc.subject	language model	en
dc.title	Využití neanotovaných dat pro trénování OCR	cs
dc.title.alternative	OCR Trained with Unanotated Data	en
dc.type	Text	cs
dc.type.driver	masterThesis	en
dc.type.evskp	diplomová práce	cs
dcterms.dateAccepted	2021-06-21	cs
dcterms.modified	2021-06-24-11:34:36	cs
eprints.affiliatedInstitution.faculty	Fakulta informačních technologií	cs
sync.item.dbid	136834	en
sync.item.dbtype	ZP	en
sync.item.insts	2021.11.12 16:14:42	en
sync.item.modts	2021.11.12 15:45:40	en
thesis.discipline	Počítačová grafika a multimédia	cs
thesis.grantor	Vysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédií	cs
thesis.level	Inženýrský	cs
thesis.name	Ing.	cs

Využití neanotovaných dat pro trénování OCR

Files

Original bundle

Collections