Paralelní korpusový manažer

Loading...
Thumbnail Image
Date
ORCID
Mark
B
Journal Title
Journal ISSN
Volume Title
Publisher
Vysoké učení technické v Brně. Fakulta informačních technologií
Abstract
Cílem diplomové práce bylo implementovat paralelní korpusový manažer, který umí zarovnat paralelní cizojazyčné texty a vložit je do korpusu, kde jsou poskytnuty další funkce pro jejich zpracování. Program poskytuje možnosti automatického zarovnání paralelních textů a jejich interaktivní úpravy. Tyto zarovnané texty se následně vkládají do korpusu. Program umí spravovat několik korpusů, paralelní korpus je identifikován vždy dvojicí jazyků. V korpusu je potom možno vyhledávat podle několika kategorií, zobrazovat a editovat jednotlivé výběry, lemmatizovat a morfologicky značkovat dané texty, provádět různá třídění výběrů, importovat a exportovat data, různými způsoby upravovat korpus pro další snadnou navigaci a přidávat další významy do spravovaných slovníků. Jednotlivé kapitoly popisují úvod ke korpusové problematice, teorii zarovnání paralelních textů, morfologické značkování textu a lemmatizaci, externí nástroje v programu použité, nejčastější formáty titulků a implementační řešení jednotlivých problémů.
The goal of diploma project was to implement parallel corpus manager, which can align parallel texts in different languages and insert them into corpus, where several more processing functions are provided. Program provides possibilities of automatic text alignment and its interactive editing. These aligned texts are then inserted into corpus. Program can work with multiple corpora, parallel corpus is allways identified by a couple of languages. In corpus, there are possibilities to search by many categories, view and edit particular selections, lemmatize and morphologically tag given texts, sort selections, import and export data, in many ways edit corpus for further easy navigation and add new expressions to managed dictionaries. Particular chapters describe introduction to corpus problematics, theory of aligning parallel texts, morphological text tagging and lemmatization, external tools used in program, most common subtitle formats and implementation solution of particular problems.
Description
Citation
KOUŘIL, J. Paralelní korpusový manažer [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2011.
Document type
Document version
Date of access to the full text
Language of document
cs
Study field
Inteligentní systémy
Comittee
prof. RNDr. Milan Češka, CSc. (předseda) doc. Ing. Vladimír Janoušek, Ph.D. (místopředseda) Ing. Vladimír Bartík, Ph.D. (člen) Ing. Michal Bidlo, Ph.D. (člen) Prof. RNDr. Milan Mišovič, CSc. (člen) Dr. Ing. Petr Peringer (člen)
Date of acceptance
2011-06-20
Defence
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se pak seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm B.
Result of defence
práce byla úspěšně obhájena
Document licence
Standardní licenční smlouva - přístup k plnému textu bez omezení
DOI
Collections
Citace PRO