抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
時間行動検出(TAD)は,画像におけるオブジェクト検出パイプラインに従って,一般的にビデオ理解コミュニティにおいて広く研究されている。しかし,複雑な設計は,2ストリーム特徴抽出,多段訓練,複雑な時間モデリング,およびグローバルコンテキスト融合のようなTADでは,珍しい。本論文では,TADのための新しい技術を導入することを目指した。代わりに,TADにおける複雑な設計および低い検出効率の現状を与えられた,簡単で,直接的ではあるが,まだ知らないベースラインを研究した。単純なベースライン(基本TAD)では,TADパイプラインをいくつかの必須成分に分解した:データサンプリング,バックボーン設計,首構築,および検出ヘッド。著者らは,この基準線のために各コンポーネントにおける既存の技術を広範囲に調査して,より重要なことに,設計の単純さのおかげで,パイプライン全体にわたってエンドツーエンド訓練を行う。結果として,この単純なBasicTADは,2ストリーム入力による最先端の方法に非常に近い,驚くべきおよびリアルタイムRGB-Onlyベースラインを与える。さらに,ネットワーク表現(PlusTADと呼ぶ)において,より時間的および空間的情報を保存することにより,さらに基本TADを改善した。経験的結果は,著者らのPlusTADが非常に効率的であり,THUMOS14とFineActionのデータセットに関する以前の方法より著しく優れていることを示した。一方,提案した方法に関する詳細な可視化と誤差解析も行い,TAD問題に関するより多くの洞察を提供することを試みた。本アプローチは将来のTAD研究の強力なベースラインとして役立つ。コードとモデルはhttps://github.com/MCG NJU/BasicTADで放出される。【JST・京大機械翻訳】