抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
本論文では,DNNに基づく音声合成において,話者適応にテキストを必要としない,教師なし話者適応について検討する。我々はこれまで,DNN音声合成において,言語特徴量に加え話者・ジェンダー・年齢コード(入力コードと呼ぶ)を利用した音声合成のための複数話者モデリング,話者適応を提案してきた。本研究では,音声データのみから計算される,学習話者に対する話者類似度を入力コードとして利用する。ここで,話者類似度とは,話者認識において広く用いられているモデル(GMM-UBMやi-vector/PLDA)を利用し計算された,個々の学習話者に対する事後確率を連結したベクトルにより表現されると仮定する。提案教師なし話者適応手法は,目標話者の音声から話者認識モデルにより計算された話者類似度ベクトルを,DNN音声合成システムの入力コードとして用いることで,実現される。話者認識モデルの構築においては,音声合成に適した話者類似度ベクトルの取得のため,利用する音響特徴量の検討を行った。10代後半から80代までの話者がバランス良く含まれた135名からなる高品質巨大コーパスを用い,評価実験を行った。主観評価の結果より,提案法は合成音声の品質を下げることなく,高精度な話者適応が可能であることを確認できた。(著者抄録)