vTTS:音声へのビジュアルテキスト【JST・京大機械翻訳】

Nakano Yoshifumi; Saeki Takaaki; Takamichi Shinnosuke; Sudoh Katsuhito; Saruwatari Hiroshi

プレプリント

J-GLOBAL ID：202202207189222392 整理番号：22P0311375

vTTS:音声へのビジュアルテキスト【JST・京大機械翻訳】

vTTS: visual-text to speech

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (5件)： , , , ,
資料名：
発行年： 2022年03月28日プレプリントサーバーでの情報更新日： 2022年03月28日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

本論文では,視覚テキスト(即ち,画像としてテキスト)から音声を合成する方法,音声に対する視覚テキスト(vTTS)を提案した。従来のTTSは音素や文字を離散記号に変換し,それらから音声波形を合成するので,文字が本質的に持つ視覚特徴を失う。したがって,提案手法では,離散シンボルではなく視覚テキストから音声を合成する。提案したvTTSは畳み込みニューラルネットワークで視覚特徴を抽出し,次にFastSpeech2に触発された非自己回帰モデルで音響特徴を生成する。実験結果は,1)vTTSが従来のTTSと同等またはより良い自然性を有する音声を生成することができる,2)それは付加的ラベルとアーキテクチャなしで音声に視覚テキストにおける強調と感情属性を移動でき,3)従来のTTSより,非意味と希少特性からより自然で知的な音声を合成できることを示した。【JST・京大機械翻訳】

, , , , ,
, , , , , 【Automatic Indexing@JST】

音声処理

前のページに戻る