抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
音声に対する適応テキスト(TTS)は,新しい話者の音声データにそれに適応することなく,よく訓練されたソースTTSモデルを用いることにより,ゼロショットシナリオで効率的に新しい音声を合成することができる。見えない話者と見せない話者は多様な特性を持ち,ゼロショット適応TTSは話者特性に強い一般化能力を必要とし,モデリングの課題をもたらす。本論文では,高品質音声合成用のゼロショット適応TTSシステムAdaSpeech4を開発した。話者特性を系統的にモデル化し,新しい話者の一般化を改善した。一般的に,話者特徴のモデリングは3つのステップに分類できる:話者表現の抽出,この話者表現を条件として,この話者表現を与えられた音声/mel-スペクトログラムを合成する。従って,3段階でモデリングを改善した。1)より良い一般化による話者表現を抽出するため,話者特性を基底ベクトルに因数化し,これらの基底ベクトルの重みづけ結合によって話者表現を,注意を通して抽出する。2)抽出話者表現をTTSモデルに統合するために条件付き層正規化を利用した。3)著者らは,生成されたメルスペクトログラムにおける対応する話者特性を維持するために,基底ベクトルの分布に基づく新しい監視損失を提案した。微調整なしで,AdaSpeech 4は複数のデータセットにおいてベースラインよりもより良い音声品質と類似性を達成した。【JST・京大機械翻訳】