文献
J-GLOBAL ID:201802250365718024   整理番号:18A0440347

DNNベースTTS合成における移植感情表現の研究【Powered by NICT】

An investigation to transplant emotional expressions in DNN-based TTS synthesis
著者 (5件):
資料名:
巻: 2017  号: APSIPA ASC  ページ: 1253-1258  発行年: 2017年 
JST資料番号: W2441A  資料種別: 会議録 (C)
記事区分: 原著論文  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
本論文では,DNNベーステキストから音声(TTS)合成の表現を改善するための感情表現を移植する深層ニューラルネットワーク(DNN)構造を調べた。DNNは言語情報と音響特徴間のマッピングにおける潜在力を持つことが期待される。話者および/または多言語観点から,いくつかのタイプのDNNアーキテクチャを提案し,良好な性能を示した。移植感情にアイデアを拡大することを試みた,共有情動依存写像を構築した。三種類DNNアーキテクチャを検討した;(1)話者依存層と情動依存層の両方から成る出力層を持つ並列モデル(PM),(2)特定話者隠れ層が先行した情動依存層からなる出力層を持つ連続モデル(SM),(3)感情と話者IDと同様に言語学特徴ベクトルから成る入力層と補助入力モデル(AIM)。DNNは24人の話者により発話された中立音声を用いて訓練し,悲しい音声と楽しい音声は24もの話者からの3人の話者により発話された。見えない感情合成に関しては,主観評価試験により,PMはSMよりもはるかに優れており,AIMよりもわずかに優れていることを示した。添加では,この試験は訓練データでは,ターゲット話者により発話された感情音声を含む場合,SMは三つのモデルの中で最良であることを示した。Copyright 2018 The Institute of Electrical and Electronics Engineers, Inc. All Rights reserved. Translated from English into Japanese by JST【Powered by NICT】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (2件):
分類
JSTが定めた文献の分類名称とコードです
パターン認識  ,  音声処理 
タイトルに関連する用語 (3件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る