抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
本論文では,Webビデオから収集した人間行動の認識と時間的位置確認のための新しい大規模データセットを提示した。著者らは,HACS(人間活動クリップとセグメント)と呼ぶ。著者らは,視覚分類器の間の合意と不一致を利用して,非標識ビデオから候補の短いクリップを自動的にマイニングし,その後,人間の注釈によって検証される。結果として得られたデータセットは,HACS Clipsによるものである。分離プロセスを通して,著者らはまた,行動セグメント境界を定義するアノテーションを収集した。この結果として得られたデータセットはHACSセグメントと呼ばれる。全体として,HACS Clipは504Kの非トリミングビデオからサンプリングされた1.5Mの注釈クリップから構成され,HACSセグメントは200の動作カテゴリにまたがる50Kの非トリミングビデオにおいて密に注釈された139Kの動作セグメントを含んでいる。HACS Clipは,既存のビデオベンチマークよりも多くのラベル付き例を含んでいる。これにより,大規模行動認識ベンチマークと時空間特徴学習のための優れたソースの両方を得ることができる。3つの目標データセットに関する著者らの移動学習実験において,HACS Clipは,訓練前のソースとしてKinetics-600,Moments-In-TimおよびSport1Mより優れている。HACS Segmentに関して,著者らは行動提案生成と行動位置確認の最先端の方法を評価して,著者らの高密度の時間的アノテーションによって提起された新しい難問を強調した。Copyright 2020 The Institute of Electrical and Electronics Engineers, Inc. All rights reserved. Translated from English into Japanese by JST.【JST・京大機械翻訳】