抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
本論文では,テキストから音声(TTS)合成システム(TTS-VC転送学習と呼ばれる)から学習することにより,音声変換(VC)システムを構築するための新しいフレームワークを提案した。著者らは最初に,符号器がテキストのロバスト言語表現を抽出して,ターゲット話者埋込みに条件付けされた復号器が,目標音響特徴を作り出すためにコンテキストベクトルと注意再発性ネットワークセル出力を取る,シーケンスツーシーケンス符号器-デコーダアーキテクチャを有するマルチ話者音声合成システムを開発する。TTSシステムが入力テキストを話者独立文脈ベクトルに写像し,符号器-デコーダ音声変換システムの潜在表現の訓練を監督するためにそのようなマッピングを再利用するという事実を利用した。音声変換システムにおいて,符号器は入力としてテキストの代わりに音声を取るが,復号器はTTS復号器と機能的に類似している。話者埋込みに関する復号器を条件づけると,このシステムは任意の音声変換に対して非並列データで訓練できる。音声変換訓練の間,テキストと音声を音声合成と音声変換ネットワークにそれぞれ提示する。実行時間で,音声変換ネットワークは,それ自身の符号器デコーダアーキテクチャを使用する。実験は,提案した方式が,音声品質,自然性,および話者類似性に関して,2つの競合音声変換ベースライン,すなわち,音韻事後グラフと変分自動符号器法より優れていることを示した。【JST・京大機械翻訳】