Show simple item record

Automatic Segmentation of Documents Stored as Images

dc.contributor.advisorSzőke, Igorcs
dc.contributor.authorJakub, Dušancs
dc.date.accessioned2020-06-23T08:02:38Z
dc.date.available2020-06-23T08:02:38Z
dc.date.created2012cs
dc.identifier.citationJAKUB, D. Automatická segmentace dokumentů [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2012.cs
dc.identifier.other78465cs
dc.identifier.urihttp://hdl.handle.net/11012/55144
dc.description.abstractPráce se zabývá rozčleněním dokumentů uložených jako obrázek do segmentů trojího druhu - pozadí, text a grafické objekty. Představuje různé způsoby řešení a podrobněji popisuje postup využívající Gaborovy filtry a neuronové sítě. Je diskutována volba vhodných parametrů filtrů i trénování sítě. Pro zpřesnění výsledků je použita metoda hledání souvislých komponent. Součástí práce je klasifikátor v jazyce C++ vytvořený za použití knihovny OpenCV. Navržený postup byl koncipován pro segmentaci dokumentů publikovaných ve vědeckých časopisech a uložených jako obrázek např. po skenování. Vedle výsledků segmentace odborných textů jsou v práci prezentovány také experimenty se segmentací dokumentů jiného charakteru, např. reklamního letáku a slidů prezentace. V závěru je demonstrován přínos navrženého postupu při zapojení do procesu optického rozpoznávání znaků.cs
dc.description.abstractThis work deals with dividing the documents stored as images into three groups of segments - background, text and graphics. It introduces various solutions and the method using Gabor filters and artficial neural networks is described in detail. The selection of apropriate settings of the filters and training parameters of the network is discussed. Connected components searching is used for improving the results. A classifier writen in C++ and OpenCV library is part of the work. The designed procedure is applied for segmentation of scanned scientific papers, but also the results of segmentation of more complex documents (advertisements, presentation slides) are presented.en
dc.language.isocscs
dc.publisherVysoké učení technické v Brně. Fakulta informačních technologiícs
dc.rightsStandardní licenční smlouva - přístup k plnému textu bez omezenícs
dc.subjectSegmentace dokumentucs
dc.subjectdetekce textucs
dc.subjecttexturové příznakycs
dc.subjectGaborovy filtrycs
dc.subjectumělá neuronová síťcs
dc.subjectOpenCVcs
dc.subjectDocument segmentationen
dc.subjecttext detectionen
dc.subjecttexture analysisen
dc.subjectGabor filtersen
dc.subjectartificial neural networken
dc.subjectOpenCVen
dc.titleAutomatická segmentace dokumentůcs
dc.title.alternativeAutomatic Segmentation of Documents Stored as Imagesen
dc.typeTextcs
dcterms.dateAccepted2012-06-13cs
dcterms.modified2020-05-09-23:40:33cs
thesis.disciplineInformační technologiecs
thesis.grantorVysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédiícs
thesis.levelBakalářskýcs
thesis.nameBc.cs
sync.item.dbid78465en
sync.item.dbtypeZPen
sync.item.insts2020.06.23 10:02:38en
sync.item.modts2020.06.23 09:53:31en
eprints.affiliatedInstitution.facultyFakulta informačních technologiícs
dc.contributor.refereeŠpaněl, Michalcs
dc.description.markAcs
dc.type.driverbachelorThesisen
dc.type.evskpbakalářská prácecs
but.committeeprof. Ing. Martin Drahanský, Ph.D. (předseda) doc. RNDr. Pavel Smrž, Ph.D. (místopředseda) doc. Ing. Jan Kořenek, Ph.D. (člen) Ing. Petr Matoušek, Ph.D. (člen) doc. Mgr. Adam Rogalewicz, Ph.D. (člen)cs
but.defenceStudent nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se pak seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm " A ". Otázky u obhajoby: Vysvětlete význam parametru P (perioda) Gáborova filtru (str. 19), ukažte jeho vliv na tvar filtru. Opravdu ovlivňuje "velikost objektu, na které bude filtr reagovat?" Je běžné aby úspěšnost detekce byla výrazně vyšší na validační datové sadě než na trénovací datové sadě? V kontextu dalších prací na podobné téma, je Vaše úspěšnost 96% dobrá nebo špatná? Považujete vybranou sadu filtrů (globální metrika přes stejnou datovou sadu) za optimální? Uvažoval jste i o jiném způsobu výběru filtrů? Uvažoval jste o možnosti detekce matematických vzorců v dokumentu?cs
but.resultpráce byla úspěšně obhájenacs
but.programInformační technologiecs
but.jazykčeština (Czech)


Files in this item

Thumbnail
Thumbnail

This item appears in the following Collection(s)

Show simple item record