文献
J-GLOBAL ID:201702254915623716   整理番号:17A1696282

DNN音声合成のための話者類似度に基づく教師なし話者適応

著者 (3件):
資料名:
巻: 2017  号: SLP-118  ページ: Vol.2017-SLP-118,No.2,1-6 (WEB ONLY)  発行年: 2017年10月06日 
JST資料番号: U0451A  資料種別: 会議録 (C)
記事区分: 原著論文  発行国: 日本 (JPN)  言語: 日本語 (JA)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
本論文では,DNNに基づく音声合成において,話者適応にテキストを必要としない,教師なし話者適応について検討する。我々はこれまで,DNN音声合成において,言語特徴量に加え話者・ジェンダー・年齢コード(入力コードと呼ぶ)を利用した音声合成のための複数話者モデリング,話者適応を提案してきた。本研究では,音声データのみから計算される,学習話者に対する話者類似度を入力コードとして利用する。ここで,話者類似度とは,話者認識において広く用いられているモデル(GMM-UBMやi-vector/PLDA)を利用し計算された,個々の学習話者に対する事後確率を連結したベクトルにより表現されると仮定する。提案教師なし話者適応手法は,目標話者の音声から話者認識モデルにより計算された話者類似度ベクトルを,DNN音声合成システムの入力コードとして用いることで,実現される。話者認識モデルの構築においては,音声合成に適した話者類似度ベクトルの取得のため,利用する音響特徴量の検討を行った。10代後半から80代までの話者がバランス良く含まれた135名からなる高品質巨大コーパスを用い,評価実験を行った。主観評価の結果より,提案法は合成音声の品質を下げることなく,高精度な話者適応が可能であることを確認できた。(著者抄録)
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

分類 (2件):
分類
JSTが定めた文献の分類名称とコードです
音声処理  ,  CAI 
引用文献 (15件):
  • N. Hojo, Y. Ijima, and H. Mizuno, “An investigation of DNN-based speech synthesis using speaker codes,” in Proc. Interspeech, 2016.
  • S. ?. Arik, G. F. Diamos, A. Gibiansky, J. Miller, K. Peng, W. Ping, J. Raiman, and Y. Zhou, “Deep voice 2: Multi-speaker neural text-to-speech,” CoRR, vol. abs/1705.08947, 2017. [Online]. Available: http://arxiv.org/abs/1705.08947
  • Y. Taigman, L. Wolf, A. Polyak, and E. Nachmani, “Voice synthesis for in-the-wild speakers via a phonological loop,” CoRR, vol. abs/1707.06588, 2017. [Online]. Available: http://arxiv.org/abs/1707.06588
  • Z. Wu, P. Swietojanski, C. Veaux, S. Renals, and S. King, “A study of speaker adaptation for DNN-based speech synthesis,” in Proc. Interspeech, 2015.
  • P. Swietojanski and S. Renals, “Learning hidden unit contributions for unsupervised speaker adaptation of neural network acoustic models,” in Proc. SLT, 2014, pp. 171-176.
もっと見る
タイトルに関連する用語 (5件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る