3D畳込みニューラルネットワークによるビデオ視覚関係検出【JST・京大機械翻訳】

Qu Mingcheng; Cui Jianxun; Su Tonghua; Deng Ganlin; Shao Wenkai

文献

J-GLOBAL ID：202202235556519191 整理番号：22A0914205

3D畳込みニューラルネットワークによるビデオ視覚関係検出【JST・京大機械翻訳】

Video Visual Relation Detection via 3D Convolutional Neural Network

出版者サイト複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=22A0914205&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=22A0914205&from=J-GLOBAL&jstjournalNo=W2422A") }}

著者 (5件)： , , , ,
資料名：
巻： 10 ページ： 23748-23756 発行年： 2022年
JST資料番号： W2422A ISSN： 2169-3536 資料種別：逐次刊行物 (A)
記事区分：原著論文発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

ビデオ視覚関係検出は,関係三重項<被験者,述語,物体>(例えば,「人-乗り」,「dog-toward-car」など)の形式でオブジェクト間の視覚関係を検出することを狙って,コンピュータビジョンにおける重要で基本的なタスクである。しかし,視覚関係インスタンスに関する既存の研究の大部分は静的画像に集中している。ビデオにおける非静的関係のモデリングは,大規模ビデオデータセットサポートの欠如のため,ほとんど注目を引いている。本研究では,21のオブジェクトクラスと37の述語クラスで高密度の手動動的ラベル付き注釈を持つ1000のビデオからなる動的ビデオ視覚関係検出のためのビデオプリディネート検出と推論(VidPDR)と名付けたビデオデータセットを提案した。さらに,3D畳込みニューラルネットワーク(ST3DCNN)を用いた新しい時空間特徴抽出フレームワークを提案した。公開データセットと著者らのデータセット(VidPDR)に関する適切な実験を行った。結果は,提案手法が最先端のベースラインと比較して大きな改善を有することを示した。Copyright 2022 The Institute of Electrical and Electronics Engineers, Inc. All rights reserved. Translated from English into Japanese by JST.【JST・京大機械翻訳】

, , , , , , , , , ,
, , , , , 【Automatic Indexing@JST】

図形・画像処理一般

, , ,

前のページに戻る