文献
J-GLOBAL ID:202002292051424109   整理番号:20A0801608

End-to-End音声認識を用いた音声合成の半教師あり話者適応

Semi-supervised speaker adaptation for TTS using End-to-End ASR.
著者 (6件):
資料名:
巻: 2020  号: 春季  ページ: ROMBUNNO.2-Q-32  発行年: 2020年03月02日 
JST資料番号: G0381C  ISSN: 1880-7658  資料種別: 会議録 (C)
記事区分: 原著論文  発行国: 日本 (JPN)  言語: 日本語 (JA)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
・非ペア音声データを用いたEnd-to-Endテキスト音声合成のための話者適応方式の提案。
・提案方式の手順は,まずテキストと音声のペアデータを用いて自動音声認識(ASR)とテキスト音声合成(TTS)を事前学習。
・その後,ASRモデルが目標話者の音声データから発話内容のテキストを生成,生成テキストと目標話者の音声データを用いて事前学習されたTTSモデルを微調整。
・提案方式を含めた5種類のTTSモデルについて,客観評価(音響特徴量の予測性能)と主観評価(話者類似性)実験を実施。
・実験により,本提案方式(非ペア音声データを用いた微調整モデル)はペアデータを用いた微調整モデルと同等性能であることを確認。
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

分類 (2件):
分類
JSTが定めた文献の分類名称とコードです
パターン認識  ,  音声処理 
タイトルに関連する用語 (4件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る