Rozpoznání paralingvistických signálů v řečovém projevu

Loading...
Thumbnail Image
Date
ORCID
Mark
A
Journal Title
Journal ISSN
Volume Title
Publisher
Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií
Abstract
Tento dokument popisuje tři metody pro klasifikaci paralingvistických výrazů jako smích a pláč z každodenních rozhovorů analýzou zvukového signálu. Pro tento účel byla vytvořena databáze nahrávek. Protože se dnes často setkáváme i s hudbou, byly do databáze začleněny i stavy: řeč, hudba, hudba se zpěvem a řeč s hudbou v pozadí. Extrakce příznaků, redukce příznaků a klasifikace jsou společné kroky v rozpoznání pro všechny tři popsané metody. Rozdíl metod spočívá v samotné klasifikaci. První metoda využívá přímého přístupu a klasifikuje všechny třídy najednou. Druhá metoda využívá postupnou klasifikaci ve stromové struktuře, která se skládá z pěti dílčích klasifikátorů. Poslední metoda využívá klasifikaci každé z dvojic tříd samostatně. Nejlepší příznaky pro každou z dílčích klasifikací byly identifikovány využitím statistické metody F-poměru a pro každou klasifikaci byly použity Gaussovy smíšené modely.
This document describes the three methods for the detection and classification of paralinguistic expressions such as laughing and crying from usual speech by analysis of the audio signal. The database of records was originally designed for this purpose. When analyzing everyday dialogs, music might be included, so the database was extended by four new classes as speech, music, singing with music and usual speech with background music. Feature extraction, feature reduction and classification are common steps in recognizing for all three methods. Difference of the methods is given by classification process in detail. One classification of all six classes at once is proposed in the first method called straight approach. In the second method called decision tree oriented approach we are using five intuitive sub classifiers in the tree structure and the final method uses for classification emotion coupling approach. The best features were reduced by feature evaluation using F-ratio and GMM classifiers were used for the each classification part.
Description
Citation
MAŠEK, J. Rozpoznání paralingvistických signálů v řečovém projevu [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2010.
Document type
Document version
Date of access to the full text
Language of document
cs
Study field
Telekomunikační a informační technika
Comittee
prof. Ing. Zdeněk Smékal, CSc. (předseda) prof. Ing. Karel Bartušek, DrSc. (místopředseda) doc. Ing. Izabela Krbilová, Ph.D. (člen) doc. Ing. Otto Dostál, CSc. (člen) doc. Ing. Jan Jeřábek, Ph.D. (člen) Ing. Jiří Přinosil, Ph.D. (člen) Ing. Ivan Míča, Ph.D. (člen) Ing. Tomáš Mácha, Ph.D. (člen)
Date of acceptance
2010-06-09
Defence
V čem se liší práce diplomanta od zmiňovaných autorů? Jste schopen rozlišit změnu charakteru řeči? Jak velká byla databáze testovaných dat? Uvažoval jste časové přizpůsobení výsledků?
Result of defence
práce byla úspěšně obhájena
Document licence
Standardní licenční smlouva - přístup k plnému textu bez omezení
DOI
Collections
Citace PRO