抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
・ある音声を別の所望の音声へ発話内容を変えずに変換する音声変換(VC)では特定入力話者と目標話者のパラレルデータセットを利用,変換モデルの学習を行う一対一音声変換に着目。
・非自己回帰型系列音声変換における自動アライメント探索(AAS)の有効性を明らかにするため,FS2-VCのモデル構造や学習設定を踏まえ,時間対応モジュールのみをAASに差し替えたAAS-VCを提案。
・FS2-VCは,教師学習モデルとなる非自己回帰型系列音声変換モデルにより推定される継続長が必要,学習データが少ない場合は継続長の精度が低下,変換品質の低下が懸念。
・AAS-VCでは,正解継続長は教師モデルを必要とせず,入力音声と目標音声のみから導出。
・5段階の平均オピニオン標点により自然性を評価,話者類似度に関しては目的音声と変換音声から同じ話者の発話かを評価して判断。
・教師モデルによる正解アラインメントを必要とする従来法のFS2-VC品質は,教師モデルとして用いる自己回帰系列音声変換モデルの品質に左右され,学習データ量の影響を受けることを示唆。
・パラレルデータから直接正解アライメントを求める機構を導入した提案AAS-VCモデルは,学習データ量に対して頑健,5分程度のパラレルデータのみでも系列変換モデルの学習が可能であることを指摘。