プレプリント
J-GLOBAL ID:202202205909635417   整理番号:22P0120616

OVC-Net:時間グラフと詳細強調によるオブジェクト指向ビデオキャプション【JST・京大機械翻訳】

OVC-Net: Object-Oriented Video Captioning with Temporal Graph and Detail Enhancement
著者 (5件):
資料名:
発行年: 2020年03月07日  プレプリントサーバーでの情報更新日: 2020年07月14日
JST資料番号: O7000B  資料種別: プレプリント
記事区分: プレプリント  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
従来のビデオキャプテーションは,ビデオの全体的記述を要求するが,特定のオブジェクトの詳細な記述は利用可能ではない。移動軌跡を連想せずに,これらの画像ベースデータ駆動法は,物体間視覚特徴における時空間遷移からの活動を理解できない。そのうえ,訓練においてあいまいなクリップ-文章ペアを採用することで,それは1対1人の性質のためにマルチモーダル機能マッピングを学習する。本論文では,オブジェクト指向ビデオキャプテーションと呼ばれるオブジェクトレベルのビデオを理解する新しいタスクを提案した。時間的グラフによりビデオベースオブジェクト指向ビデオキャプテーションネットワーク(OVC)-Netを導入し,時間に沿った活動を効果的に解析し,小サンプル条件下で視覚-言語接続を安定的に捕捉する詳細強化を導入した。時間グラフは,以前の画像ベース手法よりも有用な補完を提供し,視覚特徴の時間的進化と空間位置の動的動きから活動を推論できる。詳細強化は,異なるオブジェクト間の識別特徴を捉えるのを助け,それにより,その後のキャプテーションモジュールは,より有益で正確な記述を与えることができる。その後,効果的なクロスモーダル学習を容易にするために,一貫したオブジェクト-エンティティペアを提供する新しいデータセットを構築した。有効性を実証するために,新しいデータセットに関する実験を行い,最先端のビデオキャプテーション法と比較した。実験結果から,OVC-Netは同時オブジェクトを正確に記述する能力を示し,最先端の性能を達成した。【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (2件):
分類
JSTが定めた文献の分類名称とコードです
図形・画像処理一般  ,  パターン認識 
タイトルに関連する用語 (4件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る