STCM-Net:ビデオにおける時間言語位置決めのための対称1段ネットワーク【JST・京大機械翻訳】

Jia Zixi; Dong Minglin; Ru Jingyu; Xue Lele; Yang Sikai; Li Chunbo

文献

J-GLOBAL ID：202202249561202114 整理番号：22A0182558

STCM-Net:ビデオにおける時間言語位置決めのための対称1段ネットワーク【JST・京大機械翻訳】

STCM-Net: A symmetrical one-stage network for temporal language localization in videos

出版者サイト複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=22A0182558&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=22A0182558&from=J-GLOBAL&jstjournalNo=W0360A") }}

著者 (6件)： , , , , ,
資料名：
巻： 471 ページ： 194-207 発行年： 2022年
JST資料番号： W0360A ISSN： 0925-2312 資料種別：逐次刊行物 (A)
記事区分：原著論文発行国：オランダ (NLD) 言語：英語 (EN)

ビデオにおける時間的言語位置確認のタスクは,非トリミングビデオのための自然言語記述を通してビデオセグメントを位置決めすることである。一般的ビデオ位置確認タスクと比較して,それはより柔軟で複雑であり,それは前もってビデオラベルを作ることなく,任意の自然言語によって記述された様々な場面を正確に位置決めすることができた。それは,ビデオ検索やロボットインテリジェント認知のような分野に広く使用することができる。このタスクの主な課題は,文章意味論の抽出とビデオにおける文脈情報の統合である。それらの中で,文脈的ビデオ統合を二次元時間隣接ネットワークを通して最適化することができた。したがって,質問文における潜在的情報の完全な抽出は,より粒状にタスクを解決するのに必要である。同時に,質問文における大量の時間関連情報を見出し,それは位置確認精度を改善するのを助ける。したがって,本論文では,まず文章における時間概念を定義し,次に,対称性の1段階ネットワークであるSentence Time Conceptive Mining Network(STCM-Net)を提案する。質問文に含まれる時間概念を効果的に抽出して,それは目標位置確認のプロセスを最適化して,位置確認性能を向上することができた。また,提案したSTCM-Netを3つの挑戦的な公開ベンチマーク,即ち,Charades-STA,Active Net Caption,TACoSで評価した。著者らのSTCM-Netは最先端の手法と比較して有望な改善を得る。Copyright 2022 Elsevier B.V., Amsterdam. All rights reserved. Translated from English into Japanese by JST.【JST・京大機械翻訳】

, , , , , , , , , ,
, , , 【Automatic Indexing@JST】

著者キーワード (4件)： , , ,

自然語処理 , 情報加工一般

, ,

前のページに戻る