文献
J-GLOBAL ID:202002280698759556   整理番号:20A0575310

テキストとオーディオからの会話顔の合成:自動エンコーダとシーケンスからシーケンスへの畳込みニューラルネットワーク【JST・京大機械翻訳】

Synthesizing Talking Faces from Text and Audio: An Autoencoder and Sequence-to-Sequence Convolutional Neural Network
著者 (5件):
資料名:
巻: 102  ページ: Null  発行年: 2020年 
JST資料番号: D0611A  ISSN: 0031-3203  資料種別: 逐次刊行物 (A)
記事区分: 原著論文  発行国: オランダ (NLD)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
テキストとオーディオからの話す顔の合成は,人間機械と対面の相互作用においてますます方向になっている。進歩は行われているが,いくつかの既存の方法は,隣接入力間の非満足な共調音モデリング効果または無視関係を持っている。さらに,これらの方法のいくつかは,しばしば,共有ヘッドビデオに関するモデルを訓練するか,線形ベースの顔パラメタリゼーション戦略を利用することができる。それは,合成品質をさらに低下させる。上記の問題を扱うために,本研究では,正確なリップ同期により,自動的に話す顔ビデオを合成するために,シーケンスからシーケンスへの畳込みニューラルネットワークを提案した。最初に,先進的ランドマーク位置パイプラインを用いて,顔のランドマークを正確に位置決めして,それは効果的にランドマーク振盪を減少させることができた。次に,顔画像を低次元空間に符号化し,コンパクトな表現を得るために,部分ベース自動符号器を提示した。シーケンスからシーケンスへのネットワークも提示し,多重損失関数を持つ隣接フレームの関係を符号化し,復号器を用いた再構成戦略により顔を合成した。2つの公共オーディオビジュアルデータセットとCCTVニュースと呼ばれる新しいデータセットに関する実験は,他の最先端の方法に対する提案方法の有効性を実証した。Copyright 2020 Elsevier B.V., Amsterdam. All rights reserved. Translated from English into Japanese by JST.【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

分類 (2件):
分類
JSTが定めた文献の分類名称とコードです
パターン認識  ,  人工知能 
タイトルに関連する用語 (5件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る