End-to-End音声認識を用いた音声合成の半教師あり話者適応

井上勝喜; 原直; 阿部匡伸; 林知樹; 山本龍一; 渡部晋治

文献

J-GLOBAL ID：202002292051424109 整理番号：20A0801608

End-to-End音声認識を用いた音声合成の半教師あり話者適応

Semi-supervised speaker adaptation for TTS using End-to-End ASR.

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=20A0801608&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=20A0801608&from=J-GLOBAL&jstjournalNo=G0381C") }}

著者 (6件)： , , , , ,
資料名：
巻： 2020 号：春季ページ： ROMBUNNO.2-Q-32 発行年： 2020年03月02日
JST資料番号： G0381C ISSN： 1880-7658 資料種別：会議録 (C)
記事区分：原著論文発行国：日本 (JPN) 言語：日本語 (JA)

・非ペア音声データを用いたEnd-to-Endテキスト音声合成のための話者適応方式の提案。
・提案方式の手順は,まずテキストと音声のペアデータを用いて自動音声認識(ASR)とテキスト音声合成(TTS)を事前学習。
・その後,ASRモデルが目標話者の音声データから発話内容のテキストを生成,生成テキストと目標話者の音声データを用いて事前学習されたTTSモデルを微調整。
・提案方式を含めた5種類のTTSモデルについて,客観評価(音響特徴量の予測性能)と主観評価(話者類似性)実験を実施。
・実験により,本提案方式(非ペア音声データを用いた微調整モデル)はペアデータを用いた微調整モデルと同等性能であることを確認。

, , , , , , , ,
, , , , ,

パターン認識 , 音声処理

, , ,

前のページに戻る