DNN音声合成のための話者類似度に基づく教師なし話者適応

高木信二; 西村祥一; 山岸順一

文献

J-GLOBAL ID：201702254915623716 整理番号：17A1696282

DNN音声合成のための話者類似度に基づく教師なし話者適応

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=17A1696282&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=17A1696282&from=J-GLOBAL&jstjournalNo=U0451A") }}

著者 (3件)： , ,
資料名：
巻： 2017 号： SLP-118 ページ： Vol.2017-SLP-118,No.2,1-6 (WEB ONLY) 発行年： 2017年10月06日
JST資料番号： U0451A 資料種別：会議録 (C)
記事区分：原著論文発行国：日本 (JPN) 言語：日本語 (JA)

本論文では,DNNに基づく音声合成において,話者適応にテキストを必要としない,教師なし話者適応について検討する。我々はこれまで,DNN音声合成において,言語特徴量に加え話者・ジェンダー・年齢コード(入力コードと呼ぶ)を利用した音声合成のための複数話者モデリング,話者適応を提案してきた。本研究では,音声データのみから計算される,学習話者に対する話者類似度を入力コードとして利用する。ここで,話者類似度とは,話者認識において広く用いられているモデル(GMM-UBMやi-vector/PLDA)を利用し計算された,個々の学習話者に対する事後確率を連結したベクトルにより表現されると仮定する。提案教師なし話者適応手法は,目標話者の音声から話者認識モデルにより計算された話者類似度ベクトルを,DNN音声合成システムの入力コードとして用いることで,実現される。話者認識モデルの構築においては,音声合成に適した話者類似度ベクトルの取得のため,利用する音響特徴量の検討を行った。10代後半から80代までの話者がバランス良く含まれた135名からなる高品質巨大コーパスを用い,評価実験を行った。主観評価の結果より,提案法は合成音声の品質を下げることなく,高精度な話者適応が可能であることを確認できた。(著者抄録)

, , , , , , , , ,
, , , ,

音声処理 , CAI

引用文献 (15件)：

N. Hojo, Y. Ijima, and H. Mizuno, “An investigation of DNN-based speech synthesis using speaker codes,” in Proc. Interspeech, 2016.
S. ?. Arik, G. F. Diamos, A. Gibiansky, J. Miller, K. Peng, W. Ping, J. Raiman, and Y. Zhou, “Deep voice 2: Multi-speaker neural text-to-speech,” CoRR, vol. abs/1705.08947, 2017. [Online]. Available: http://arxiv.org/abs/1705.08947
Y. Taigman, L. Wolf, A. Polyak, and E. Nachmani, “Voice synthesis for in-the-wild speakers via a phonological loop,” CoRR, vol. abs/1707.06588, 2017. [Online]. Available: http://arxiv.org/abs/1707.06588
Z. Wu, P. Swietojanski, C. Veaux, S. Renals, and S. King, “A study of speaker adaptation for DNN-based speech synthesis,” in Proc. Interspeech, 2015.
P. Swietojanski and S. Renals, “Learning hidden unit contributions for unsupervised speaker adaptation of neural network acoustic models,” in Proc. SLT, 2014, pp. 171-176.

, , , ,

前のページに戻る