合成音声を用いた特徴量の正規化による感情識別法

中川祥平; 中川祥平; 鈴木基之; 松本和幸; 北研二

文献

J-GLOBAL ID：201402299349568036 整理番号：14A0298724

合成音声を用いた特徴量の正規化による感情識別法

出版者サイト複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=14A0298724&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=14A0298724&from=J-GLOBAL&jstjournalNo=S0757C") }}

著者 (5件)： , , , ,
資料名：
巻： J97-D 号： 3 ページ： 533-539 発行年： 2014年03月01日
JST資料番号： S0757C ISSN： 1880-4535 資料種別：逐次刊行物 (A)
記事区分：原著論文発行国：日本 (JPN) 言語：日本語 (JA)

本論文では,音声からの感情推定において特徴量を正規化して識別を行う方法を提案する。従来感情識別に用いられている平均パワーやピッチといった韻律的特徴量は,感情による変化だけではなく発話内容そのものによって大きく変化する。そのため,たとえ同じ感情で発話されたとしても発話内容が異なれば異なる韻律となり,感情推定の性能低下を招き得る。そこで本論文では,平静の感情で同じ発話内容を発話した音声からも特徴量を抽出し,それとの差分に注目することで感情による特徴量の変化のみを抽出する方法を提案する。使用している5種類の特徴量(平均パワー,ピッチ等)ごとに減算による正規化,除算による正規化,正規化なし,の三つの方法で正規化し,全ての組み合わせの中で最も性能が向上する組み合わせを探索した。その結果,最適な組み合わせによる識別性能は,正規化を行わない従来法と比較して5.98%向上した。正規化法に関する分析を行ったところ,平均パワーは正規化が必要(演算は減算でも除算でも大きな差はない)であり,一方ピッチとMFCCは正規化なし,残りの二つの特徴量についてはどちらでも性能は大きくは変化しないことがわかった。(著者抄録)

, , , , , ,
, , , ,

パターン認識

引用文献 (11件)：

M. Grimm, K. Kroschel, E. Mower, and S. Narayanan, ”Primitives-based evaluation and estimation of emotions in speech,” Speech Commun., vol.49, no.10-11, pp.787-800, 2007.
I. Luengo, E. Navas, and I. Hernaez, ”Combining spectral and prosodic information for emotion recognition in the interspeech 2009 emotion challenge,” Proc. INTERSPEECH, pp.332-335, 2009.
B. Schuller, S. Steidl, and A. Batliner, ”The interspeech 2009 emotion challenge,” Proc. INTERSPEECH 2009, pp.312-315, 2009.
M. Suzuki, S. Nakagawa, and K. Kita, ”Prosodic feature normalization for emotion recognition by using synthesized speech,” Proc. 16th Annual Conference on Knowledge-Based and Intelligent Information & Engineering Systems, pp.306-313, 2012.
R.E. Thayer, The Biopsychology of Mood and Arousal, Oxford University Press, 1989.

, , , ,

前のページに戻る