AAS-VC:非自己回帰型系列音声変換における時間対応付け学習の頑健性

HUANG Wen-Chin; 小林和弘; 小林和弘; 戸田智基

文献

J-GLOBAL ID：202402251796101782 整理番号：24A0858540

AAS-VC:非自己回帰型系列音声変換における時間対応付け学習の頑健性

AAS-VC: On the Generalization Ability of Automatic Alignment Search based Non-autoregressive Sequence-to-sequence Voice Conversion.

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=24A0858540&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=24A0858540&from=J-GLOBAL&jstjournalNo=G0381C") }}

著者 (4件)： , , ,
資料名：
巻： 2024 号：春季ページ： ROMBUNNO.1-2-11 発行年： 2024年02月21日
JST資料番号： G0381C ISSN： 1880-7658 資料種別：会議録 (C)
記事区分：原著論文発行国：日本 (JPN) 言語：日本語 (JA)

・ある音声を別の所望の音声へ発話内容を変えずに変換する音声変換(VC)では特定入力話者と目標話者のパラレルデータセットを利用,変換モデルの学習を行う一対一音声変換に着目。
・非自己回帰型系列音声変換における自動アライメント探索(AAS)の有効性を明らかにするため,FS2-VCのモデル構造や学習設定を踏まえ,時間対応モジュールのみをAASに差し替えたAAS-VCを提案。
・FS2-VCは,教師学習モデルとなる非自己回帰型系列音声変換モデルにより推定される継続長が必要,学習データが少ない場合は継続長の精度が低下,変換品質の低下が懸念。
・AAS-VCでは,正解継続長は教師モデルを必要とせず,入力音声と目標音声のみから導出。
・5段階の平均オピニオン標点により自然性を評価,話者類似度に関しては目的音声と変換音声から同じ話者の発話かを評価して判断。
・教師モデルによる正解アラインメントを必要とする従来法のFS2-VC品質は,教師モデルとして用いる自己回帰系列音声変換モデルの品質に左右され,学習データ量の影響を受けることを示唆。
・パラレルデータから直接正解アライメントを求める機構を導入した提案AAS-VCモデルは,学習データ量に対して頑健,5分程度のパラレルデータのみでも系列変換モデルの学習が可能であることを指摘。

, , , , , , , , ,
,

音声処理

, , , , , , ,

前のページに戻る