Mining of Textual Data from the Web for Speech Recognition

but.committeedoc. Dr. Ing. Jan Černocký (předseda) prof. RNDr. Milan Češka, CSc. (místopředseda) prof. Ing. Adam Herout, Ph.D. (člen) doc. RNDr. Pavel Hruška, CSc. (člen) RNDr. Marek Rychlý, Ph.D. (člen) doc. RNDr. Pavel Smrž, Ph.D. (člen)cs
but.defenceStudent nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se pak seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm B. Otázky u obhajoby: Vzhledem k tomu, že praktický přínos práce závisí především na vlastním zlepšení rozpoznávání řeči, tak bych poprosil autora, aby při obhajobě věnoval těmto experimentům větší prostor a aby se na základě dosažených výsledků sám pokusil zhodnotit jakého zlepšení v rozpoznávání lze s pomocí vydolovaných dat dosahovat.cs
but.jazykangličtina (English)
but.programInformační technologiecs
but.resultpráce byla úspěšně obhájenacs
dc.contributor.advisorMikolov, Tomášen
dc.contributor.authorKubalík, Jakuben
dc.contributor.refereePlchot, Oldřichen
dc.date.accessioned2019-05-17T07:18:19Z
dc.date.available2019-05-17T07:18:19Z
dc.date.created2010cs
dc.description.abstractPrvotním cílem tohoto projektu bylo prostudovat problematiku jazykového modelování pro rozpoznávání řeči a techniky pro získávání textových dat z Webu. Text představuje základní techniky rozpoznávání řeči a detailněji popisuje jazykové modely založené na statistických metodách. Zvláště se práce zabývá kriterii pro vyhodnocení kvality jazykových modelů a systémů pro rozpoznávání řeči. Text dále popisuje modely a techniky dolování dat, zvláště vyhledávání informací. Dále jsou představeny problémy spojené se získávání dat z webu, a v kontrastu s tím je představen vyhledávač Google. Součástí projektu byl návrh a implementace systému pro získávání textu z webu, jehož detailnímu popisu je věnována náležitá pozornost. Nicméně, hlavním cílem práce bylo ověřit, zda data získaná z Webu mohou mít nějaký přínos pro rozpoznávání řeči. Popsané techniky se tak snaží najít optimální způsob, jak data získaná z Webu použít pro zlepšení ukázkových jazykových modelů, ale i modelů nasazených v reálných rozpoznávacích systémech.en
dc.description.abstractThe preliminary goals of this project were to get familiar with language modeling for speech recognition and techniques for acquisition of text data from the Web. Speech recognition techniques are introduced and statistical language modeling is described in detail. The text also covers mining models and techniques, information retrieval especially. Specific problems of Web mining are discussed and Google search is introduced. Special attention was paid to detailed description of implementation of the text mining system. However, the main goal of this work was to determine, whether the data acquired from the Web can provide some improvement into the recognition systems. The text is describing experiments, which use the retrieved Web data to update sample language models.cs
dc.description.markBcs
dc.identifier.citationKUBALÍK, J. Mining of Textual Data from the Web for Speech Recognition [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2010.cs
dc.identifier.other35045cs
dc.identifier.urihttp://hdl.handle.net/11012/54313
dc.language.isoencs
dc.publisherVysoké učení technické v Brně. Fakulta informačních technologiícs
dc.rightsStandardní licenční smlouva - přístup k plnému textu bez omezenícs
dc.subjectRozpoznávání řečien
dc.subjectRozpoznávání spojité řeči s velkým slovníkemen
dc.subjectBayesova teorie pravděpodobnostien
dc.subjectJazykový modelen
dc.subjectApriorní pravděpodobnosten
dc.subjectKlasifikace do ekvivalentních tříden
dc.subjectN-gramen
dc.subjectSmoothingen
dc.subjectEntropieen
dc.subjectPerplexityen
dc.subjectPodíl OOV sloven
dc.subjectWord Error Rateen
dc.subjectAnotační dataen
dc.subjectKorpusen
dc.subjectLineární interpolaceen
dc.subjectDolování daten
dc.subjectVyhledávání informacíen
dc.subjectTF-IDF váhaen
dc.subjectDolování webuen
dc.subjectDolování textuen
dc.subjectGoogle PageRanken
dc.subjectSpeech recognitioncs
dc.subjectLarge Vocabulary Continuous Speech Recognition (LVCSR)cs
dc.subjectBayes' probability theorycs
dc.subjectLanguage modelcs
dc.subjectA-priori probabilitycs
dc.subjectEquivalence classificationcs
dc.subjectN-gramcs
dc.subjectSmoothingcs
dc.subjectInformation Theorycs
dc.subjectEntropycs
dc.subjectCross-entropycs
dc.subjectPerplexitycs
dc.subjectOut of Vocabulary ratecs
dc.subjectWord Error Ratecs
dc.subjectAnnotation datacs
dc.subjectCorpuscs
dc.subjectLinear Interpolationcs
dc.subjectData miningcs
dc.subjectInformation retrievalcs
dc.subjectTF-IDFcs
dc.subjectWeb miningcs
dc.subjectText miningcs
dc.subjectGoogle's PageRankcs
dc.titleMining of Textual Data from the Web for Speech Recognitionen
dc.title.alternativeMining of Textual Data from the Web for Speech Recognitioncs
dc.typeTextcs
dc.type.drivermasterThesisen
dc.type.evskpdiplomová prácecs
dcterms.dateAccepted2010-06-22cs
dcterms.modified2020-05-09-23:42:22cs
eprints.affiliatedInstitution.facultyFakulta informačních technologiícs
sync.item.dbid35045en
sync.item.dbtypeZPen
sync.item.insts2021.11.12 12:11:20en
sync.item.modts2021.11.12 10:58:35en
thesis.disciplinePočítačová grafika a multimédiacs
thesis.grantorVysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédiícs
thesis.levelInženýrskýcs
thesis.nameIng.cs
Files
Original bundle
Now showing 1 - 2 of 2
Loading...
Thumbnail Image
Name:
final-thesis.pdf
Size:
720.78 KB
Format:
Adobe Portable Document Format
Description:
final-thesis.pdf
Loading...
Thumbnail Image
Name:
review_35045.html
Size:
1.46 KB
Format:
Hypertext Markup Language
Description:
review_35045.html
Collections