Generativní neuronové sítě pro ručně psané písmo

Loading...
Thumbnail Image
Date
ORCID
Mark
A
Journal Title
Journal ISSN
Volume Title
Publisher
Vysoké učení technické v Brně. Fakulta informačních technologií
Abstract
Cílem této práce bylo vytvořit model pro generování řádků ručně psaného písma. Model na základě očekávaného stylu a libovolně dlouhého textu vytváří odpovídají obrázek s písmem. Navržené řešení překonává existující přístupy v kvalitě generovaného písma a umožňuje generování jak samostatných slov, tak i řádků. Kombinuje vyhledávání příznaků pro jednotlivé symboly pomocí attention a jejich rozmístění na řádek pomocí vkládání mezer. Nový přístup umožňuje specifikovat pozice symbolů na řádku jemněji než celými čísly, a tak vytvářet plynulejší interpolace mezi různými styly. Na rozdíl od předchozího řešení tento přístup využívá Gaussův filtr pro rozšíření jednotlivých příznaků symbolů do blízkého okolí. Současně tento přístup otevírá množnost trénování modelu pro odhad pozic symbolů na řádku adversariální chybou (GAN). Navíc byly vytvořeny anotace horizontálních pozic symbolů na řádcích datové sady ručně psaného písma IAM.
The aim of this study was to create a generative neural network for handwritten text lines. The model produces variable-sized images of handwritten text lines based on the expected style. The proposed method exceeds existing models in the image quality and can be used to generate both individual words and entire lines of handwritten text. It combines the use of the attention mechanism to extract the features for each character from the text query and their arranging on the line by inserting spaces between them. The new approach allows more granular control of the symbol positions on the line, which leads to smoother style interpolations. In contrast to the previous approach, the proposed method uses the Gaussian filter to spread the individual symbols features to the surrounding area. This approach also allows to train the model for symbols position predictions using the adversarial loss (GAN). In addition, annotations of symbol horizontal positions on the lines of the IAM dataset of handwritten text have been created.
Description
Citation
ŠEVČÍK, P. Generativní neuronové sítě pro ručně psané písmo [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2022.
Document type
Document version
Date of access to the full text
Language of document
cs
Study field
Strojové učení
Comittee
prof. Dr. Ing. Jan Černocký (předseda) doc. Ing. Lukáš Burget, Ph.D. (místopředseda) doc. RNDr. Milan Češka, Ph.D. (člen) Ing. Michal Hradiš, Ph.D. (člen) Ing. Jaroslav Rozman, Ph.D. (člen) doc. Ing. František Zbořil, CSc. (člen)
Date of acceptance
2022-06-21
Defence
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A. Otázky u obhajoby: Do trénování celého modelu pro generování písma je zapojená i OCR síť (označená jako "R"). Je tato síť předtrénovaná, nebo se trénuje od začátku (společně se zbytkem modelu)? Jak přesně probíhají jednotlivé iterace dekodéru v autoregresivní síti "S" (na obrázku 4.6 na straně 28)?
Result of defence
práce byla úspěšně obhájena
Document licence
Standardní licenční smlouva - přístup k plnému textu bez omezení
DOI
Collections
Citace PRO