テキストとオーディオからの会話顔の合成:自動エンコーダとシーケンスからシーケンスへの畳込みニューラルネットワーク【JST・京大機械翻訳】

Liu Na; Zhou Tao; Ji Yunfeng; Zhao Ziyi; Wan Lihong

文献

J-GLOBAL ID：202002280698759556 整理番号：20A0575310

テキストとオーディオからの会話顔の合成:自動エンコーダとシーケンスからシーケンスへの畳込みニューラルネットワーク【JST・京大機械翻訳】

Synthesizing Talking Faces from Text and Audio: An Autoencoder and Sequence-to-Sequence Convolutional Neural Network

出版者サイト複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=20A0575310&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=20A0575310&from=J-GLOBAL&jstjournalNo=D0611A") }}

著者 (5件)： , , , ,
資料名：
巻： 102 ページ： Null 発行年： 2020年
JST資料番号： D0611A ISSN： 0031-3203 資料種別：逐次刊行物 (A)
記事区分：原著論文発行国：オランダ (NLD) 言語：英語 (EN)

テキストとオーディオからの話す顔の合成は,人間機械と対面の相互作用においてますます方向になっている。進歩は行われているが,いくつかの既存の方法は,隣接入力間の非満足な共調音モデリング効果または無視関係を持っている。さらに,これらの方法のいくつかは,しばしば,共有ヘッドビデオに関するモデルを訓練するか,線形ベースの顔パラメタリゼーション戦略を利用することができる。それは,合成品質をさらに低下させる。上記の問題を扱うために,本研究では,正確なリップ同期により,自動的に話す顔ビデオを合成するために,シーケンスからシーケンスへの畳込みニューラルネットワークを提案した。最初に,先進的ランドマーク位置パイプラインを用いて,顔のランドマークを正確に位置決めして,それは効果的にランドマーク振盪を減少させることができた。次に,顔画像を低次元空間に符号化し,コンパクトな表現を得るために,部分ベース自動符号器を提示した。シーケンスからシーケンスへのネットワークも提示し,多重損失関数を持つ隣接フレームの関係を符号化し,復号器を用いた再構成戦略により顔を合成した。2つの公共オーディオビジュアルデータセットとCCTVニュースと呼ばれる新しいデータセットに関する実験は,他の最先端の方法に対する提案方法の有効性を実証した。Copyright 2020 Elsevier B.V., Amsterdam. All rights reserved. Translated from English into Japanese by JST.【JST・京大機械翻訳】

, , , , , , , , , , , , , ,

著者キーワード (8件)： , , , , , , ,

パターン認識 , 人工知能

, , , ,

前のページに戻る