文献
J-GLOBAL ID:201702261989171844   整理番号:17A0869679

DNN音声合成における感情付与のためのモデル構造の検討

Comparisons on Transplant Emotional Expressions in DNN-based TTS Synthesis
著者 (5件):
資料名:
巻: 117  号: 105(PRMU2017 25-38)  ページ: 23-28  発行年: 2017年06月15日 
JST資料番号: S0532B  ISSN: 0913-5685  資料種別: 会議録 (C)
記事区分: 原著論文  発行国: 日本 (JPN)  言語: 日本語 (JA)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
DNN音声合成は,従来のHMM音声合成に比べ,より自然な音声が合成可能であることが示されている。また,HMM音声合成では合成音声を多様化するために感情付与の手法が研究されている。しかし,DNN音声合成においても感情付与が可能であるかは明らかでない。そこで,DNNに基づく音声合成システムの表現力を向上させる方法として,本報告では感情付与のためのDNNのモデル構造を検討した。感情付与のためのモデル構造として,次の3種類を比較した。すなわち,(1)Parallel Model:出力層が話者依存の層と感情依存の層からなる構造,(2)Serial Model:話者依存の層から感情依存の出力層へと伝播する構造,(3)Auxiliary Input Model:言語特徴量ベクトルと同様に話者IDと感情IDを入力する構造,の3種類である。話者24名の平常音声と話者24名中の3名の喜びと悲しみの音声により学習をおこなった。客観評価実験と主観評価実験により,各モデル構造を比較した。実験の結果,学習データに平常音声しかない話者の声質で感情音声を合成する場合,Parallel ModelがSerial Modelよりも良く,Auxiliary Input Modelよりもわずかに良いことが明らかとなった。また,学習データ中に感情音声を含む話者の声質で感情音声を合成する場合,Serial Modelが最も良い性能を示した。(著者抄録)
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

分類 (2件):
分類
JSTが定めた文献の分類名称とコードです
音声処理  ,  人工知能 
引用文献 (16件):
タイトルに関連する用語 (3件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る