スタイルGAN2潜在空間における表現的話しヘッドビデオ符号化【JST・京大機械翻訳】

Oorloff Trevine; Yacoob Yaser

プレプリント

J-GLOBAL ID：202202207892770113 整理番号：22P0311162

スタイルGAN2潜在空間における表現的話しヘッドビデオ符号化【JST・京大機械翻訳】

Expressive Talking Head Video Encoding in StyleGAN2 Latent-Space

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (2件)： ,
資料名：
発行年： 2022年03月28日プレプリントサーバーでの情報更新日： 2023年02月14日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

ビデオ再生に関する研究の最近の進歩は有望な結果をもたらしたが,現実的なアニメーション顔ビデオを生成するのに重要な,微細で詳細で表現的な顔特徴(例えば,リッププレス,口パッカーリング,口ギャップ,および皺)を捉えるのにアプローチが短くなる。この目的のために,著者らは,単一同一性の低次元編集を最適化することにより,データ効率の良い高品質ビデオ再合成を容易にするエンドツーエンド表現顔ビデオ符号化手法を提案した。この手法はStyleGAN2画像反転と多段階非線形潜在空間編集に構築し,入力ビデオとほぼ同等のビデオを生成する。既存のStyleGAN潜在ベースの編集技術は,静的画像の妥当な編集を単純に生成することに焦点を合わせているが,著者らは,StyleGAN2のStyle-latent-空間(StyleSpace)に存在する符号化を用いて,フレームのシーケンスにおける微細表現顔変形を捉えるために,潜在空間編集を自動化した。このようにして得られた符号化は,1024 ̄2で顔ビデオの再制定を容易にするために,単一IDentity-latentに重畳できた。提案フレームワークは,顔アイデンティティ,ヘッド姿勢,および複雑な表現顔運動を,微細レベルで経済的に捉え,それによって,訓練,人モデリング,ランドマーク/キーポイントへの依存性,および,ほとんどの再制定アプローチを妨げる傾向がある低解像度合成を迂回する。このアプローチを最大データ効率で設計し,単一W+潜在とフレーム当たり35のパラメータが高忠実度ビデオレンダリングを可能にした。このパイプラインは,また,プペットリング(すなわち,移動)にも使用できる。【JST・京大機械翻訳】

, , , , , , , , ,
, , , , , , 【Automatic Indexing@JST】

パターン認識

, ,

前のページに戻る