Mining of Textual Data from the Web for Speech Recognition

Kubalík, Jakub

Mining of Textual Data from the Web for Speech Recognition

but.committee	doc. Dr. Ing. Jan Černocký (předseda) prof. RNDr. Milan Češka, CSc. (místopředseda) prof. Ing. Adam Herout, Ph.D. (člen) doc. RNDr. Pavel Hruška, CSc. (člen) RNDr. Marek Rychlý, Ph.D. (člen) doc. RNDr. Pavel Smrž, Ph.D. (člen)	cs
but.defence	Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se pak seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm B. Otázky u obhajoby: Vzhledem k tomu, že praktický přínos práce závisí především na vlastním zlepšení rozpoznávání řeči, tak bych poprosil autora, aby při obhajobě věnoval těmto experimentům větší prostor a aby se na základě dosažených výsledků sám pokusil zhodnotit jakého zlepšení v rozpoznávání lze s pomocí vydolovaných dat dosahovat.	cs
but.jazyk	angličtina (English)
but.program	Informační technologie	cs
but.result	práce byla úspěšně obhájena	cs
dc.contributor.advisor	Mikolov, Tomáš	en
dc.contributor.author	Kubalík, Jakub	en
dc.contributor.referee	Plchot, Oldřich	en
dc.date.accessioned	2019-05-17T07:18:19Z
dc.date.available	2019-05-17T07:18:19Z
dc.date.created	2010	cs
dc.description.abstract	Prvotním cílem tohoto projektu bylo prostudovat problematiku jazykového modelování pro rozpoznávání řeči a techniky pro získávání textových dat z Webu. Text představuje základní techniky rozpoznávání řeči a detailněji popisuje jazykové modely založené na statistických metodách. Zvláště se práce zabývá kriterii pro vyhodnocení kvality jazykových modelů a systémů pro rozpoznávání řeči. Text dále popisuje modely a techniky dolování dat, zvláště vyhledávání informací. Dále jsou představeny problémy spojené se získávání dat z webu, a v kontrastu s tím je představen vyhledávač Google. Součástí projektu byl návrh a implementace systému pro získávání textu z webu, jehož detailnímu popisu je věnována náležitá pozornost. Nicméně, hlavním cílem práce bylo ověřit, zda data získaná z Webu mohou mít nějaký přínos pro rozpoznávání řeči. Popsané techniky se tak snaží najít optimální způsob, jak data získaná z Webu použít pro zlepšení ukázkových jazykových modelů, ale i modelů nasazených v reálných rozpoznávacích systémech.	en
dc.description.abstract	The preliminary goals of this project were to get familiar with language modeling for speech recognition and techniques for acquisition of text data from the Web. Speech recognition techniques are introduced and statistical language modeling is described in detail. The text also covers mining models and techniques, information retrieval especially. Specific problems of Web mining are discussed and Google search is introduced. Special attention was paid to detailed description of implementation of the text mining system. However, the main goal of this work was to determine, whether the data acquired from the Web can provide some improvement into the recognition systems. The text is describing experiments, which use the retrieved Web data to update sample language models.	cs
dc.description.mark	B	cs
dc.identifier.citation	KUBALÍK, J. Mining of Textual Data from the Web for Speech Recognition [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2010.	cs
dc.identifier.other	35045	cs
dc.identifier.uri	http://hdl.handle.net/11012/54313
dc.language.iso	en	cs
dc.publisher	Vysoké učení technické v Brně. Fakulta informačních technologií	cs
dc.rights	Standardní licenční smlouva - přístup k plnému textu bez omezení	cs
dc.subject	Rozpoznávání řeči	en
dc.subject	Rozpoznávání spojité řeči s velkým slovníkem	en
dc.subject	Bayesova teorie pravděpodobnosti	en
dc.subject	Jazykový model	en
dc.subject	Apriorní pravděpodobnost	en
dc.subject	Klasifikace do ekvivalentních tříd	en
dc.subject	N-gram	en
dc.subject	Smoothing	en
dc.subject	Entropie	en
dc.subject	Perplexity	en
dc.subject	Podíl OOV slov	en
dc.subject	Word Error Rate	en
dc.subject	Anotační data	en
dc.subject	Korpus	en
dc.subject	Lineární interpolace	en
dc.subject	Dolování dat	en
dc.subject	Vyhledávání informací	en
dc.subject	TF-IDF váha	en
dc.subject	Dolování webu	en
dc.subject	Dolování textu	en
dc.subject	Google PageRank	en
dc.subject	Speech recognition	cs
dc.subject	Large Vocabulary Continuous Speech Recognition (LVCSR)	cs
dc.subject	Bayes' probability theory	cs
dc.subject	Language model	cs
dc.subject	A-priori probability	cs
dc.subject	Equivalence classification	cs
dc.subject	N-gram	cs
dc.subject	Smoothing	cs
dc.subject	Information Theory	cs
dc.subject	Entropy	cs
dc.subject	Cross-entropy	cs
dc.subject	Perplexity	cs
dc.subject	Out of Vocabulary rate	cs
dc.subject	Word Error Rate	cs
dc.subject	Annotation data	cs
dc.subject	Corpus	cs
dc.subject	Linear Interpolation	cs
dc.subject	Data mining	cs
dc.subject	Information retrieval	cs
dc.subject	TF-IDF	cs
dc.subject	Web mining	cs
dc.subject	Text mining	cs
dc.subject	Google's PageRank	cs
dc.title	Mining of Textual Data from the Web for Speech Recognition	en
dc.title.alternative	Mining of Textual Data from the Web for Speech Recognition	cs
dc.type	Text	cs
dc.type.driver	masterThesis	en
dc.type.evskp	diplomová práce	cs
dcterms.dateAccepted	2010-06-22	cs
dcterms.modified	2020-05-09-23:42:22	cs
eprints.affiliatedInstitution.faculty	Fakulta informačních technologií	cs
sync.item.dbid	35045	en
sync.item.dbtype	ZP	en
sync.item.insts	2021.11.12 12:11:20	en
sync.item.modts	2021.11.12 10:58:35	en
thesis.discipline	Počítačová grafika a multimédia	cs
thesis.grantor	Vysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédií	cs
thesis.level	Inženýrský	cs
thesis.name	Ing.	cs

Files

Original bundle

Now showing 1 - 2 of 2

Name:: final-thesis.pdf
Size:: 720.78 KB
Format:: Adobe Portable Document Format
Description:: final-thesis.pdf

Download

Name:: review_35045.html
Size:: 1.46 KB
Format:: Hypertext Markup Language
Description:: review_35045.html

Download

Collections

2010