非並列訓練データによる音声合成から音声変換への移動学習【JST・京大機械翻訳】

Zhang Mingyang; Zhou Yi; Zhao Li; Li Haizhou

プレプリント

J-GLOBAL ID：202202211567768738 整理番号：21P0051521

非並列訓練データによる音声合成から音声変換への移動学習【JST・京大機械翻訳】

Transfer Learning from Speech Synthesis to Voice Conversion with Non-Parallel Training Data

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (4件)： , , ,
資料名：
発行年： 2020年09月29日プレプリントサーバーでの情報更新日： 2021年01月06日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

本論文では,テキストから音声(TTS)合成システム(TTS-VC転送学習と呼ばれる)から学習することにより,音声変換(VC)システムを構築するための新しいフレームワークを提案した。著者らは最初に,符号器がテキストのロバスト言語表現を抽出して,ターゲット話者埋込みに条件付けされた復号器が,目標音響特徴を作り出すためにコンテキストベクトルと注意再発性ネットワークセル出力を取る,シーケンスツーシーケンス符号器-デコーダアーキテクチャを有するマルチ話者音声合成システムを開発する。TTSシステムが入力テキストを話者独立文脈ベクトルに写像し,符号器-デコーダ音声変換システムの潜在表現の訓練を監督するためにそのようなマッピングを再利用するという事実を利用した。音声変換システムにおいて,符号器は入力としてテキストの代わりに音声を取るが,復号器はTTS復号器と機能的に類似している。話者埋込みに関する復号器を条件づけると,このシステムは任意の音声変換に対して非並列データで訓練できる。音声変換訓練の間,テキストと音声を音声合成と音声変換ネットワークにそれぞれ提示する。実行時間で,音声変換ネットワークは,それ自身の符号器デコーダアーキテクチャを使用する。実験は,提案した方式が,音声品質,自然性,および話者類似性に関して,2つの競合音声変換ベースライン,すなわち,音韻事後グラフと変分自動符号器法より優れていることを示した。【JST・京大機械翻訳】

, , , , , , , ,
, , , , , , 【Automatic Indexing@JST】

音声処理

, , ,

前のページに戻る