深層学習を用いた実時間多重時空間行動局所化と予測手法

Hammam Ahmed Ali; Hammam Ahmed Ali; Soliman Mona M.; Soliman Mona M.; Hassanien Aboul Ella; Hassanien Aboul Ella

文献

J-GLOBAL ID：202002221589533667 整理番号：20A1235803

深層学習を用いた実時間多重時空間行動局所化と予測手法

Real-time multiple spatiotemporal action localization and prediction approach using deep learning

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=20A1235803&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=20A1235803&from=J-GLOBAL&jstjournalNo=T0698A") }}

著者 (6件)： , , , , ,
資料名：
巻： 128 ページ： 331-344 発行年： 2020年08月
JST資料番号： T0698A ISSN： 0893-6080 資料種別：逐次刊行物 (A)
記事区分：原著論文発行国：イギリス (GBR) 言語：英語 (EN)

ビデオにおける複数の行動の位置を検出して,リアルタイムでそれらを分類することは,「行動局在化と予測」問題と呼ばれる挑戦的な問題である。畳込みニューラルネットワーク(ConvNet)は,静止画像における動作位置確認と予測のために大きな成功を達成した。AlexNetアーキテクチャがImageNet競争に導入されたとき,主要な進歩が起こった。ConvNetsは,オブジェクト検出,画像セグメンテーション,画像分類,顔認識,人間の姿勢推定,および追跡を含む様々なマシンビジョンタスクを通して,最先端の性能を達成した。しかしながら,ビデオにおける行動の局在化と予測を扱う研究はほとんど存在しない。現在の行動位置確認研究は,1つの行動だけがフレームごとに起こる時間的にトリミングされたビデオの分類に焦点を合わせている。さらに,ほとんど全ての現在のアプローチはオフラインでのみ動作し,実世界環境ではあまりにも遅すぎる。本研究では,実時間動作位置決めと予測を実行するための高速で正確な深い学習手法を提案した。提案した手法は畳込みニューラルネットワークを用いて複数の行動を局所化し,それらのクラスを実時間で予測する。このアプローチは,2ストリームモデルを用いて,RGBフレームとオプティカルフローフレームからの行動を局所化し分類するために,外観と動き検出ネットワーク(Yolo)ネットワークを用いることにより始める。次に,提案手法の位置決め精度を向上させる融合ステップを提案した。さらに,フレームレベル検出に基づく動作管を生成した。フレーム処理によるフレームは,検出速度と精度に関して,初期の動作検出とトップ性能による予測を導入した。実験結果は,最近のオフラインおよびオンライン動作位置決めと比較して,処理時間と精度の両方に関して提案したアプローチの優位性を実証し,挑戦的なUCF-101-24およびJ-HMDB-21ベンチマークに関する予測アプローチを示した。Copyright 2020 Elsevier B.V., Amsterdam. All rights reserved. Translated from English into Japanese by JST.

, , , , , , , , , , , , , ,
, ,

著者キーワード (6件)： , , , , ,

ニューロコンピュータ , 人工知能 , 図形・画像処理一般 , パターン認識

, , , , , ,

前のページに戻る