ビデオ参照セグメンテーションのためのオブジェクト-アグノスティック変圧器【JST・京大機械翻訳】

Yang Xu; Wang Hao; Xie De; Deng Cheng; Tao Dacheng

文献

J-GLOBAL ID：202202261317659338 整理番号：22A1086088

ビデオ参照セグメンテーションのためのオブジェクト-アグノスティック変圧器【JST・京大機械翻訳】

Object-Agnostic Transformers for Video Referring Segmentation

出版者サイト複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=22A1086088&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=22A1086088&from=J-GLOBAL&jstjournalNo=W0364A") }}

著者 (5件)： , , , ,
資料名：
巻： 31 ページ： 2839-2849 発行年： 2022年
JST資料番号： W0364A ISSN： 1057-7149 CODEN： IIPRE4 資料種別：逐次刊行物 (A)
記事区分：原著論文発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

ビデオ参照セグメンテーションは,対応するテキスト記述に基づくビデオにおけるオブジェクトのセグメンテーションに焦点を当てた。以前の研究は,2つの重要な部分,文脈モデリングのためのモード内モジュール,および不均一アラインメントのためのモード間モジュールを考案することによって,このタスクを主に取り組んだ。しかし,このアプローチには2つの本質的な欠点がある。(1)それは文脈モデリングと不均一アラインメントの共同学習を欠き,入力要素間の不十分な相互作用をもたらす。(2)両モジュールは,事前方法の柔軟性と普遍性を厳しく制限する設計にタスク固有のエキスパート知識を必要とする。これらの問題に取り組むために,ここでは,オブジェクト検出またはカテゴリ特異的ピクセルラベリングの支援なしに,ビデオ参照セグメンテーションのためのモード内およびモード間学習を同時に行う,OATNetと呼ばれる新しいオブジェクト-Agnostic変換器ベースネットワークを提案した。より具体的には,まずテキストトークンと視覚トークン(検出されたオブジェクト結合ボックスよりもピクセル)をマルチモーダル符号器に直接供給し,ここではコンテキストとアラインメントを同時に効率的に探索した。次に,新しいカスケードセグメンテーションネットワークを設計し,著者らのタスクを粗粒セグメンテーションと微細粒微細化に分離する。さらに,サンプルの困難性を考慮して,提案した方法の性能をより良く診断するために,よりバランスした計量を提供した。2つのポピュラーなデータセット,A2D SentencesとJ-HMDB Sentencesに関する大規模な実験は,著者らの提案した方式が最先端の方法を著しく凌駕することを示した。Copyright 2022 The Institute of Electrical and Electronics Engineers, Inc. All rights reserved. Translated from English into Japanese by JST.【JST・京大機械翻訳】

, , , , , , , , , , , , ,
, 【Automatic Indexing@JST】

図形・画像処理一般

, , , ,

前のページに戻る