Show simple item record

Recurrent Neural Networks with Elastic Time Context in Language Modeling

dc.contributor.advisorHannemann, Mirkoen
dc.contributor.authorBeneš, Karelen
dc.date.accessioned2019-04-03T22:26:47Z
dc.date.available2019-04-03T22:26:47Z
dc.date.created2016cs
dc.identifier.citationBENEŠ, K. Recurrent Neural Networks with Elastic Time Context in Language Modeling [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2016.cs
dc.identifier.other96612cs
dc.identifier.urihttp://hdl.handle.net/11012/61973
dc.description.abstractTato zpráva popisuje  experimentální práci na statistické jazykovém modelování pomocí rekurentních neuronových sítí (RNN). Je zde předložen důkladný přehled dosud publikovaných prací, následovaný popisem algoritmů pro trénování příslušných modelů. Většina z popsaných technik byla implementována ve vlastním nástroji, založeném na knihovně Theano. Byla provedena rozsáhlá sada experimentů s modelem Jednoduché rekurentní sítě (SRN), která odhalila některé jejich dosud nepublikované vlastnosti. Při statické evaluaci modelu byly dosažené výsledky relativně cca. o 2.7 % horší, než nejlepší publikované výsledky. V případě dynamické evaluace však bylo dosaženo relativního zlepšení o 1 %. Dále bylo experimentováno i s modelem Strukturně omezené rekurentní sítě, ale ten se nepodařilo natrénovat k předpokládáným výkonům. Konečně bylo navrženo rozšíření SRN, pojmenované Náhodně prořidlá rekurentní neuronová síť. Experimentálně bylo potvrzeno, že RS-RNN dosahuje lepších výsledků v učení vlastního trénovacího korpusu a kombinace několika RS-RNN modelů přináší o 30 % větší zlepšení než kombinace stejného počtu SRN.en
dc.description.abstractThis thesis describes an experimental work in the field of statistical language modeling with recurrent neural networks (RNNs). A thorough literature survey on the topic is given, followed by a description of algorithms used for training the respective models. Most of the techniques have been implemented using Theano toolkit. Extensive experiments have been carried out with the Simple Recurrent Network (SRN), which revealed some previously unpublished findings. The best published result has not been replicated in case of static evaluation. In the case of dynamic evaluation, the best published result was outperformed by 1 %. Then, experiments with the Structurally Constrained Recurrent Network have been conducted, but the performance could not be improved over the SRN baseline. Finally, a novel enhancement of the SRN was proposed, leading to a Randomly Sparse RNN (RS-RNN) architecture. This enhancement is based on applying a fixed binary mask on the recurrent connections, thus forcing some recurrent weights to zero. It is empirically confirmed, that RS-RNN models learn the training corpus better and a combination of RS-RNN models achieved a 30% bigger gain on test data than a combination of dense SRN models of same size.cs
dc.language.isoencs
dc.publisherVysoké učení technické v Brně. Fakulta informačních technologiícs
dc.rightsStandardní licenční smlouva - přístup k plnému textu bez omezenícs
dc.subjectStatistické jazykové modelováníen
dc.subjectrekurentní neuronové sítěen
dc.subjectnáhodná řidkost vah reprezentace slovní historieen
dc.subjectStatistical Language Modelingcs
dc.subjectRecurrent Neural Networkcs
dc.subjectRandom Sparsity of Weightscs
dc.subjectWord History Representationcs
dc.titleRecurrent Neural Networks with Elastic Time Context in Language Modelingen
dc.title.alternativeRecurrent Neural Networks with Elastic Time Context in Language Modelingcs
dc.typeTextcs
dcterms.dateAccepted2016-06-17cs
dcterms.modified2020-05-10-16:12:46cs
thesis.disciplineInteligentní systémycs
thesis.grantorVysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédiícs
thesis.levelInženýrskýcs
thesis.nameIng.cs
sync.item.dbid96612en
sync.item.dbtypeZPen
sync.item.insts2020.06.23 10:21:06en
sync.item.modts2020.06.23 09:15:30en
eprints.affiliatedInstitution.facultyFakulta informačních technologiícs
dc.contributor.refereeVeselý, Karelen
dc.description.markAcs
dc.type.drivermasterThesisen
dc.type.evskpdiplomová prácecs
but.committeedoc. Ing. František Zbořil, CSc. (předseda) doc. Ing. Jiří Kunovský, CSc. (místopředseda) Ing. Michal Bidlo, Ph.D. (člen) Doc. Ing. Pavel Herout, Ph.D. (člen) Ing. Zbyněk Křivka, Ph.D. (člen) doc. RNDr. Pavel Smrž, Ph.D. (člen)cs
but.defenceStudent nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm výborně (A). Otázky u obhajoby: Můžete prosím okomentovat proč v obrázku 4.2 počet kroků 'zpětné propagace v čase (BPTT)' nemá vliv na hodnotu trénovacího kritéria na testovací sadě? Byl tento výsledek očekávaný? Proč je výhodné použít v modelu řídkou matici rekurentních synapsí?cs
but.resultpráce byla úspěšně obhájenacs
but.programInformační technologiecs
but.jazykangličtina (English)


Files in this item

Thumbnail
Thumbnail
Thumbnail
Thumbnail

This item appears in the following Collection(s)

Show simple item record