Tacotron2を用いたオーディオビジュアル音声合成【JST・京大機械翻訳】

Abdelaziz Ahmed Hussen; Kumar Anushree Prasanna; Seivwright Chloe; Fanelli Gabriele; Binder Justin; Stylianou Yannis; Kajarekar Sachin

プレプリント

J-GLOBAL ID：202202201485464360 整理番号：21P0042406

Tacotron2を用いたオーディオビジュアル音声合成【JST・京大機械翻訳】

Audiovisual Speech Synthesis using Tacotron2

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (7件)： , , , , , ,
資料名：
発行年： 2020年08月02日プレプリントサーバーでの情報更新日： 2021年08月29日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

オーディオビジュアル音声合成は,音響と視覚音声のコヒーレンスを最大化しながら,会話顔を合成する問題である。本論文では,3D顔モデルに対する2つのオーディオビジュアル音声合成システムを提案し,比較した。第1のシステムは,Tacotron2アーキテクチャに基づくエンドツーエンドのテキストツーオーディオビジュアル音声シンセサイザであるAVTacotron2である。AVTacotron2は,文章を表現する一連の音素を変換し,音響特徴のシーケンスと顔モデルの対応する制御装置を合成する。出力音響特徴を用いて,音声波形を再構成するWaveRNNを条件付けし,出力顔制御装置を用いて,会話面の対応するビデオを生成した。第2のオーディオビジュアル音声合成システムは,従来のタコトロン2を用いてテキストから音響音声を合成するモジュールである。次に,再構成音響音声信号を用いて,独立に訓練されたオーディオ対顔アニメーションニューラルネットワークを用いて顔モデルの顔制御を駆動した。さらに,感情的オーディオビジュアル音声を生成するために必要な韻律を符号化する感情埋込みに関するエンドツーエンドおよびモジュールアプローチの両方をさらに条件付けした。2つのシステムの性能を分析し,主観的評価試験を用いて地上の真のビデオと比較する。エンドツーエンドおよびモジュールシステムは,専門記録ビデオから生成されたグランドトルースに対して4.1のMOSと比較して,それぞれ4.1および3.9の平均意見スコア(MOS)で,人間のようなオーディオビジュアル音声に近い合成が可能である。エンドツーエンドシステムはより良い全体的品質を与えるが,モジュール方式はより柔軟であり,音響音声と視覚音声合成の品質は互いにほとんど独立である。【JST・京大機械翻訳】

, , , , , , , , , , ,
, , , 【Automatic Indexing@JST】

パターン認識 , 図形・画像処理一般

前のページに戻る