抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
ビデオインスタンスセグメンテーション(VIS)は,ビデオにおける複数のオブジェクトインスタンスを同時に分類,セグメンテーション,追跡することを目的とする。最近のクリップレベルVISは,フレームレベルVIS(トラッキングバイセグメンテーション)よりも強い性能を示す入力として短いビデオクリップを取り上げ,複数のフレームからのより時間的なコンテキストを利用する。しかし,ほとんどのクリップレベル法は,エンドツーエンドの学習可能もリアルタイムでもない。これらの限界は,クリップ内のVISエンドツーエンドを実行する最近のVIS変圧器(VisTR)によって対処される。しかし,VisTRは,そのフレームごとの密な注意により長い訓練時間を受ける。さらに,VisTRは,連続クリップ間のインスタンストラックレットをリンクする手作業データ連想を必要とするので,複数のビデオクリップにおいて完全にエンドツーエンド学習可能ではない。本論文では,効率的な訓練と推論を持つ完全エンドツーエンドフレームワークである効率的なVISを提案した。コアでは,反復クエリ-ビデオ相互作用によって,空間と時間を通して,関心領域(RoIs)を連想し,分割するトラックレットクエリとトラックレットを提案する。さらに,クリップエンドツーエンド学習可能間のトラッキングレットをリンクする対応学習を提案した。VisTRと比較して,効率的なVISは,YouTube-VISベンチマークで最先端の精度を達成しながら,15x少ない訓練期間を必要とする。一方,提案手法では,全ビデオインスタンスセグメンテーションを,データ連想なしに単一エンドツーエンドパスで可能にする。【JST・京大機械翻訳】