ビデオセグメンテーションを参照するための深くインタリーブした2ストリームエンコーダ【JST・京大機械翻訳】

Feng Guang; Zhang Lihe; Hu Zhiwei; Lu Huchuan

プレプリント

J-GLOBAL ID：202202200375089193 整理番号：22P0322190

ビデオセグメンテーションを参照するための深くインタリーブした2ストリームエンコーダ【JST・京大機械翻訳】

Deeply Interleaved Two-Stream Encoder for Referring Video Segmentation

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (4件)： , , ,
資料名：
発行年： 2022年03月29日プレプリントサーバーでの情報更新日： 2022年03月29日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

ビデオセグメンテーションは,言語表現により記述された対応するビデオオブジェクトをセグメンテーションすることを目的とする。このタスクに取り組むために,まずCNNベースの視覚特徴および変圧器ベースの言語的特徴を抽出するための2ストリーム符号器を設計し,マルチモーダル特徴の階層的および進行性融合を促進するために,視覚言語相互誘導(VLMG)モジュールを符号器多重時間に挿入した。既存のマルチモーダル融合法と比較して,この2ストリーム符号器は,マルチ粒状言語文脈を考慮し,VLGMの助けを借りて,モダリティ間の深いインタリービングを実現する。フレーム間の時間的アラインメントを促進するために,著者らは,さらに,言語誘導空間時間特徴を用いて,現在のフレームの特徴をより柔軟かつ効率的に更新するために,言語誘導空間時間特徴を使用する,言語誘導多重スケール動的フィルタリング(LMDF)モジュールを提案した。4つのデータセットに関する大規模な実験は,提案モデルの有効性を証明した。【JST・京大機械翻訳】

, , , , , , , , , , ,
, , , 【Automatic Indexing@JST】

パターン認識 , 人工知能

, , , ,

前のページに戻る