抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
本稿では,WaveNetボコーダを用いた声質変換を提案する。混合正規分布モデルに基づく声質変換は,入力話者の話者性を目標話者の話者性へと変換する事が可能である。一方で,従来のボコーダを用いた音声波形生成では,F
0推定誤差,スペクトル包絡のモデル化誤差,変換特徴量系列の平滑化などにより音声波形のモデル化誤差が生じ,変換音声の音質が著しく低下する事が確認されている。この問題を解決するために,我々は,WaveNetボコーダに基づく音声波形生成法を声質変換に適用する。入力話者の音響特徴量系列は,従来法と同様,混合正規分布モデルに基づき,目標話者の音響特徴量系列へと変換される。変換音響特徴量系列を補助特徴量として用いる事で,WaveNetボコーダは変換音声の音声波形を生成する。本稿では,学習および音声波形生成時にWaveNetボコーダの補助特徴量となる音響特徴量系列に対して幾つかの試みを実施し,WaveNetボコーダを用いた声質変換の有効性を調査する。客観評価実験および主観評価実験より,WaveNetボコーダを用いた声質変換は,従来のボコーダに基づく音声波形生成を利用した声質変換に比べて,高い音質及び話者性変換を実現可能である事がわかった。(著者抄録)