Speaker Discrimination Using Long-Term Spectrum of Speech
Rozlišování mluvčích pomocí dlouhodobého spektra řeči
Abstract
In this article, a specific long-term speech spectrum was investigated with respect to its use for speaker recognition. The long-term spectrum was calculated by means of second-order linear prediction using the average autocorrelation coefficients. Four subbands with the most discriminative capability were selected for speaker recognition. These subbands involve the frequencies of 0-1.2 kHz in total. The best recognition rates, i.e. 91.7% on complete speech and 100% on voiced speech, were achieved in optimal paired subbands. V tomto článku bylo zkoumáno specifické dlouhodobé spektrum řeči s ohledem na jeho využití pro rozpoznávání mluvčích. Dlouhodobé spektrum bylo vypočteno pomocí lineární predikce druhého řádu s použitím průměrných autokorelačních koeficientů. Pro rozpoznávání mluvčích byly vybrány čtyři dílčí pásma s nejvyšší diskriminační schopností. Tato pásma zahrnují celkem frekvence 0-1,2 kHz. V optimálně spárovaných dílčích pásmech bylo dosaženo nejlepší míry rozpoznávání, a sice 91,7% při použití kompletní řeči a 100% při použití znělé řeči.
Keywords
Speech signal, long-term spectrum, speaker discrimination, efficient features, Řečový signál, dlouhodobé spektrum, rozpoznávání mluvčích, efektivní příznakyPersistent identifier
http://hdl.handle.net/11012/201688Document type
Peer reviewedDocument version
Final PDFSource
Information Technology and Control. 2019, vol. 48, issue 3, p. 446-453.http://itc.ktu.lt/index.php/ITC/article/view/21248
Collections
- Ústav radioelektroniky [179]