プレプリント
J-GLOBAL ID:202202211567768738   整理番号:21P0051521

非並列訓練データによる音声合成から音声変換への移動学習【JST・京大機械翻訳】

Transfer Learning from Speech Synthesis to Voice Conversion with Non-Parallel Training Data
著者 (4件):
資料名:
発行年: 2020年09月29日  プレプリントサーバーでの情報更新日: 2021年01月06日
JST資料番号: O7000B  資料種別: プレプリント
記事区分: プレプリント  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
本論文では,テキストから音声(TTS)合成システム(TTS-VC転送学習と呼ばれる)から学習することにより,音声変換(VC)システムを構築するための新しいフレームワークを提案した。著者らは最初に,符号器がテキストのロバスト言語表現を抽出して,ターゲット話者埋込みに条件付けされた復号器が,目標音響特徴を作り出すためにコンテキストベクトルと注意再発性ネットワークセル出力を取る,シーケンスツーシーケンス符号器-デコーダアーキテクチャを有するマルチ話者音声合成システムを開発する。TTSシステムが入力テキストを話者独立文脈ベクトルに写像し,符号器-デコーダ音声変換システムの潜在表現の訓練を監督するためにそのようなマッピングを再利用するという事実を利用した。音声変換システムにおいて,符号器は入力としてテキストの代わりに音声を取るが,復号器はTTS復号器と機能的に類似している。話者埋込みに関する復号器を条件づけると,このシステムは任意の音声変換に対して非並列データで訓練できる。音声変換訓練の間,テキストと音声を音声合成と音声変換ネットワークにそれぞれ提示する。実行時間で,音声変換ネットワークは,それ自身の符号器デコーダアーキテクチャを使用する。実験は,提案した方式が,音声品質,自然性,および話者類似性に関して,2つの競合音声変換ベースライン,すなわち,音韻事後グラフと変分自動符号器法より優れていることを示した。【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (1件):
分類
JSTが定めた文献の分類名称とコードです
音声処理 
タイトルに関連する用語 (4件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る