文献
J-GLOBAL ID:201902259018498472   整理番号:19A0696326

一枚画像と音情報を用いた動画生成

著者 (6件):
資料名:
巻: 2019  号: CG-173  ページ: Vol.2019-CG-173,No.8,1-6 (WEB ONLY)  発行年: 2019年02月26日 
JST資料番号: U0451A  資料種別: 会議録 (C)
記事区分: 原著論文  発行国: 日本 (JPN)  言語: 日本語 (JA)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
近年,人の話し声や楽器演奏のように,音と連動した動作を音情報から再現する研究が行われている.従来手法では,顔の特徴点や体のボーンのような対象に特化した特徴量を用いることで,口や体の動きを生成しているが,音と動きが連動している任意の現象に対しては適用できない.本稿では,一枚画像と数秒の音を入力とすることで,対象に依存しない画像の見た目を保持したまま,音に連動した動画を生成する深層学習を用いた手法を提案する.実験において,口や体の動きだけでなく,花火や海の波などの様々な動画において提案手法が有効であるかの検証を行い,対象ごとに特徴量を定めることなく動画生成が可能であることを確認した.(著者抄録)
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

分類 (1件):
分類
JSTが定めた文献の分類名称とコードです
図形・画像処理一般 
引用文献 (15件):
  • Aifanti, N., Papachristou, C. and Delopoulos, A.: The MUG facial expression database, International Workshop on Image Analysis for Multimedia Interactive Services (WIAMIS) (2010).
  • Aytar, Y., Vondrick, C. and Torralba, A.: SoundNet: Learning Sound Representations from Unlabeled Video, Neural Information Processing Systems (NIPS) (2016).
  • Chen, L., Li, Z., Maddox, R. K., Duan, Z. and Xu, C.: Lip Movements Generation at a Glance, European Conference on Computer Vision (ECCV) (2018).
  • Chen, L., Srivastava, S., Duan, Z. and Xu, C.: Deep Cross-Modal Audio-Visual Generation (2017).
  • Goodfellow, I. J., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., Courville, A. C. and Bengio, Y.: Generative Adversarial Nets, Neural Information Processing Systems (NIPS) (2014).
もっと見る
タイトルに関連する用語 (2件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る