DNN音声合成における感情付与のためのモデル構造の検討

井上勝喜; 原直; 阿部匡伸; 北条伸克; 井島勇祐

文献

J-GLOBAL ID：201702261989171844 整理番号：17A0869679

DNN音声合成における感情付与のためのモデル構造の検討

Comparisons on Transplant Emotional Expressions in DNN-based TTS Synthesis

出版者サイト複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=17A0869679&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=17A0869679&from=J-GLOBAL&jstjournalNo=S0532B") }}

著者 (5件)： , , , ,
資料名：
巻： 117 号： 105(PRMU2017 25-38) ページ： 23-28 発行年： 2017年06月15日
JST資料番号： S0532B ISSN： 0913-5685 資料種別：会議録 (C)
記事区分：原著論文発行国：日本 (JPN) 言語：日本語 (JA)

DNN音声合成は,従来のHMM音声合成に比べ,より自然な音声が合成可能であることが示されている。また,HMM音声合成では合成音声を多様化するために感情付与の手法が研究されている。しかし,DNN音声合成においても感情付与が可能であるかは明らかでない。そこで,DNNに基づく音声合成システムの表現力を向上させる方法として,本報告では感情付与のためのDNNのモデル構造を検討した。感情付与のためのモデル構造として,次の3種類を比較した。すなわち,(1)Parallel Model:出力層が話者依存の層と感情依存の層からなる構造,(2)Serial Model:話者依存の層から感情依存の出力層へと伝播する構造,(3)Auxiliary Input Model:言語特徴量ベクトルと同様に話者IDと感情IDを入力する構造,の3種類である。話者24名の平常音声と話者24名中の3名の喜びと悲しみの音声により学習をおこなった。客観評価実験と主観評価実験により,各モデル構造を比較した。実験の結果,学習データに平常音声しかない話者の声質で感情音声を合成する場合,Parallel ModelがSerial Modelよりも良く,Auxiliary Input Modelよりもわずかに良いことが明らかとなった。また,学習データ中に感情音声を含む話者の声質で感情音声を合成する場合,Serial Modelが最も良い性能を示した。(著者抄録)

, , , , , , , , ,
, , , , ,

音声処理 , 人工知能

引用文献 (16件)：

H. Zen, A. Senior, and M. Schuster, ”Statistical parametric speech synthesis using deep neural networks,” 2013 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp.7962-7966, 2013.
Y. Qian, Y. Fan, W. Hu, and F.K. Soong, ”On the training aspects of deep neural network (DNN) for parametric TTS synthesis,” 2014 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp.3829-3833, 2014.
Z. Wu, C. Valentini-Botinhao, O. Watts, and S. King, ”Deep neural networks employing multi-task learning and stacked bottleneck features for speech synthesis,” 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp.4460-4464, 2015.
Y. Fan, Y. Qian, F.K. Soong, and L. He, ”Multi-speaker modeling and speaker adaptation for DNN-based TTS synthesis,” 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp.4475-4479, 2015.
Z. Wu, P. Swietojanski, C. Veaux, S. Renals, and S. King, ”A study of speaker adaptation for DNN-based speech synthesis,” Proc. INTERSPEECH, pp.879-883, 2015.

, ,

前のページに戻る