文献
J-GLOBAL ID:202402251796101782   整理番号:24A0858540

AAS-VC:非自己回帰型系列音声変換における時間対応付け学習の頑健性

AAS-VC: On the Generalization Ability of Automatic Alignment Search based Non-autoregressive Sequence-to-sequence Voice Conversion.
著者 (4件):
資料名:
巻: 2024  号: 春季  ページ: ROMBUNNO.1-2-11  発行年: 2024年02月21日 
JST資料番号: G0381C  ISSN: 1880-7658  資料種別: 会議録 (C)
記事区分: 原著論文  発行国: 日本 (JPN)  言語: 日本語 (JA)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
・ある音声を別の所望の音声へ発話内容を変えずに変換する音声変換(VC)では特定入力話者と目標話者のパラレルデータセットを利用,変換モデルの学習を行う一対一音声変換に着目。
・非自己回帰型系列音声変換における自動アライメント探索(AAS)の有効性を明らかにするため,FS2-VCのモデル構造や学習設定を踏まえ,時間対応モジュールのみをAASに差し替えたAAS-VCを提案。
・FS2-VCは,教師学習モデルとなる非自己回帰型系列音声変換モデルにより推定される継続長が必要,学習データが少ない場合は継続長の精度が低下,変換品質の低下が懸念。
・AAS-VCでは,正解継続長は教師モデルを必要とせず,入力音声と目標音声のみから導出。
・5段階の平均オピニオン標点により自然性を評価,話者類似度に関しては目的音声と変換音声から同じ話者の発話かを評価して判断。
・教師モデルによる正解アラインメントを必要とする従来法のFS2-VC品質は,教師モデルとして用いる自己回帰系列音声変換モデルの品質に左右され,学習データ量の影響を受けることを示唆。
・パラレルデータから直接正解アライメントを求める機構を導入した提案AAS-VCモデルは,学習データ量に対して頑健,5分程度のパラレルデータのみでも系列変換モデルの学習が可能であることを指摘。
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

分類 (1件):
分類
JSTが定めた文献の分類名称とコードです
音声処理 

前のページに戻る