文献
J-GLOBAL ID:202202261317659338   整理番号:22A1086088

ビデオ参照セグメンテーションのためのオブジェクト-アグノスティック変圧器【JST・京大機械翻訳】

Object-Agnostic Transformers for Video Referring Segmentation
著者 (5件):
資料名:
巻: 31  ページ: 2839-2849  発行年: 2022年 
JST資料番号: W0364A  ISSN: 1057-7149  CODEN: IIPRE4  資料種別: 逐次刊行物 (A)
記事区分: 原著論文  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
ビデオ参照セグメンテーションは,対応するテキスト記述に基づくビデオにおけるオブジェクトのセグメンテーションに焦点を当てた。以前の研究は,2つの重要な部分,文脈モデリングのためのモード内モジュール,および不均一アラインメントのためのモード間モジュールを考案することによって,このタスクを主に取り組んだ。しかし,このアプローチには2つの本質的な欠点がある。(1)それは文脈モデリングと不均一アラインメントの共同学習を欠き,入力要素間の不十分な相互作用をもたらす。(2)両モジュールは,事前方法の柔軟性と普遍性を厳しく制限する設計にタスク固有のエキスパート知識を必要とする。これらの問題に取り組むために,ここでは,オブジェクト検出またはカテゴリ特異的ピクセルラベリングの支援なしに,ビデオ参照セグメンテーションのためのモード内およびモード間学習を同時に行う,OATNetと呼ばれる新しいオブジェクト-Agnostic変換器ベースネットワークを提案した。より具体的には,まずテキストトークンと視覚トークン(検出されたオブジェクト結合ボックスよりもピクセル)をマルチモーダル符号器に直接供給し,ここではコンテキストとアラインメントを同時に効率的に探索した。次に,新しいカスケードセグメンテーションネットワークを設計し,著者らのタスクを粗粒セグメンテーションと微細粒微細化に分離する。さらに,サンプルの困難性を考慮して,提案した方法の性能をより良く診断するために,よりバランスした計量を提供した。2つのポピュラーなデータセット,A2D SentencesとJ-HMDB Sentencesに関する大規模な実験は,著者らの提案した方式が最先端の方法を著しく凌駕することを示した。Copyright 2022 The Institute of Electrical and Electronics Engineers, Inc. All rights reserved. Translated from English into Japanese by JST.【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (1件):
分類
JSTが定めた文献の分類名称とコードです
図形・画像処理一般 
タイトルに関連する用語 (5件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る