プレプリント
J-GLOBAL ID:202202201485464360   整理番号:21P0042406

Tacotron2を用いたオーディオビジュアル音声合成【JST・京大機械翻訳】

Audiovisual Speech Synthesis using Tacotron2
著者 (7件):
資料名:
発行年: 2020年08月02日  プレプリントサーバーでの情報更新日: 2021年08月29日
JST資料番号: O7000B  資料種別: プレプリント
記事区分: プレプリント  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
オーディオビジュアル音声合成は,音響と視覚音声のコヒーレンスを最大化しながら,会話顔を合成する問題である。本論文では,3D顔モデルに対する2つのオーディオビジュアル音声合成システムを提案し,比較した。第1のシステムは,Tacotron2アーキテクチャに基づくエンドツーエンドのテキストツーオーディオビジュアル音声シンセサイザであるAVTacotron2である。AVTacotron2は,文章を表現する一連の音素を変換し,音響特徴のシーケンスと顔モデルの対応する制御装置を合成する。出力音響特徴を用いて,音声波形を再構成するWaveRNNを条件付けし,出力顔制御装置を用いて,会話面の対応するビデオを生成した。第2のオーディオビジュアル音声合成システムは,従来のタコトロン2を用いてテキストから音響音声を合成するモジュールである。次に,再構成音響音声信号を用いて,独立に訓練されたオーディオ対顔アニメーションニューラルネットワークを用いて顔モデルの顔制御を駆動した。さらに,感情的オーディオビジュアル音声を生成するために必要な韻律を符号化する感情埋込みに関するエンドツーエンドおよびモジュールアプローチの両方をさらに条件付けした。2つのシステムの性能を分析し,主観的評価試験を用いて地上の真のビデオと比較する。エンドツーエンドおよびモジュールシステムは,専門記録ビデオから生成されたグランドトルースに対して4.1のMOSと比較して,それぞれ4.1および3.9の平均意見スコア(MOS)で,人間のようなオーディオビジュアル音声に近い合成が可能である。エンドツーエンドシステムはより良い全体的品質を与えるが,モジュール方式はより柔軟であり,音響音声と視覚音声合成の品質は互いにほとんど独立である。【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (2件):
分類
JSTが定めた文献の分類名称とコードです
パターン認識  ,  図形・画像処理一般 
タイトルに関連する用語 (2件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る