基本的TAD:時間的行動検出のためのAstounding RGBのみのベースライン【JST・京大機械翻訳】

Yang Min; Chen Guo; Zheng Yin-Dong; Lu Tong; Wang Limin

プレプリント

J-GLOBAL ID：202202221336198926 整理番号：22P0344862

基本的TAD:時間的行動検出のためのAstounding RGBのみのベースライン【JST・京大機械翻訳】

BasicTAD: an Astounding RGB-Only Baseline for Temporal Action Detection

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (5件)： , , , ,
資料名：
発行年： 2022年05月05日プレプリントサーバーでの情報更新日： 2023年04月10日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

時間行動検出(TAD)は,画像におけるオブジェクト検出パイプラインに従って,一般的にビデオ理解コミュニティにおいて広く研究されている。しかし,複雑な設計は,2ストリーム特徴抽出,多段訓練,複雑な時間モデリング,およびグローバルコンテキスト融合のようなTADでは,珍しい。本論文では,TADのための新しい技術を導入することを目指した。代わりに,TADにおける複雑な設計および低い検出効率の現状を与えられた,簡単で,直接的ではあるが,まだ知らないベースラインを研究した。単純なベースライン(基本TAD)では,TADパイプラインをいくつかの必須成分に分解した:データサンプリング,バックボーン設計,首構築,および検出ヘッド。著者らは,この基準線のために各コンポーネントにおける既存の技術を広範囲に調査して,より重要なことに,設計の単純さのおかげで,パイプライン全体にわたってエンドツーエンド訓練を行う。結果として,この単純なBasicTADは,2ストリーム入力による最先端の方法に非常に近い,驚くべきおよびリアルタイムRGB-Onlyベースラインを与える。さらに,ネットワーク表現(PlusTADと呼ぶ)において,より時間的および空間的情報を保存することにより,さらに基本TADを改善した。経験的結果は,著者らのPlusTADが非常に効率的であり,THUMOS14とFineActionのデータセットに関する以前の方法より著しく優れていることを示した。一方,提案した方法に関する詳細な可視化と誤差解析も行い,TAD問題に関するより多くの洞察を提供することを試みた。本アプローチは将来のTAD研究の強力なベースラインとして役立つ。コードとモデルはhttps://github.com/MCG NJU/BasicTADで放出される。【JST・京大機械翻訳】

, , , , , , , , , , ,
, , , 【Automatic Indexing@JST】

分析機器

, , ,

前のページに戻る