プレプリント
J-GLOBAL ID:202202213180923452   整理番号:22P0323933

AdaSpeech 4:ゼロショットシナリオにおける音声への適応テキスト【JST・京大機械翻訳】

AdaSpeech 4: Adaptive Text to Speech in Zero-Shot Scenarios
著者 (8件):
資料名:
発行年: 2022年04月01日  プレプリントサーバーでの情報更新日: 2022年04月01日
JST資料番号: O7000B  資料種別: プレプリント
記事区分: プレプリント  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
音声に対する適応テキスト(TTS)は,新しい話者の音声データにそれに適応することなく,よく訓練されたソースTTSモデルを用いることにより,ゼロショットシナリオで効率的に新しい音声を合成することができる。見えない話者と見せない話者は多様な特性を持ち,ゼロショット適応TTSは話者特性に強い一般化能力を必要とし,モデリングの課題をもたらす。本論文では,高品質音声合成用のゼロショット適応TTSシステムAdaSpeech4を開発した。話者特性を系統的にモデル化し,新しい話者の一般化を改善した。一般的に,話者特徴のモデリングは3つのステップに分類できる:話者表現の抽出,この話者表現を条件として,この話者表現を与えられた音声/mel-スペクトログラムを合成する。従って,3段階でモデリングを改善した。1)より良い一般化による話者表現を抽出するため,話者特性を基底ベクトルに因数化し,これらの基底ベクトルの重みづけ結合によって話者表現を,注意を通して抽出する。2)抽出話者表現をTTSモデルに統合するために条件付き層正規化を利用した。3)著者らは,生成されたメルスペクトログラムにおける対応する話者特性を維持するために,基底ベクトルの分布に基づく新しい監視損失を提案した。微調整なしで,AdaSpeech 4は複数のデータセットにおいてベースラインよりもより良い音声品質と類似性を達成した。【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (1件):
分類
JSTが定めた文献の分類名称とコードです
音声処理 
タイトルに関連する用語 (4件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る