クラスタリングネットワークに基づくテキスト-ビデオ特徴学習【JST・京大機械翻訳】

Zhang Heng; Ma Mingdong; Wang Deyu

文献

J-GLOBAL ID：202102230540086720 整理番号：21A0739188

クラスタリングネットワークに基づくテキスト-ビデオ特徴学習【JST・京大機械翻訳】

Text-Video Feature Learning Based on Clustering Network

出版者サイト複写サービスで全文入手
高度な検索・分析はJDreamⅢで

著者 (3件)： , ,
資料名：
巻： 47 号： 7 ページ： 125-129 発行年： 2020年
JST資料番号： C2530A ISSN： 1002-137X 資料種別：逐次刊行物 (A)
記事区分：原著論文発行国：中国 (CHN) 言語：中国語 (ZH)

ビデオコンテンツとテキスト意味論の総合的理解は,多くの分野で広く研究されてきた。初期の研究は主にテキスト-ビデオを一つの公共ベクトル空間にマッピングするが、この方法が直面する一つの問題は大規模なテキスト-ビデオデータセットが不足していることである。ビデオデータには大きい情報冗長性があるため、直接3Dネットワークを通じて全体のビデオ特徴を抽出することは、ネットワークパラメータが多く、リアルタイム性が悪いため、ビデオタスクの実行に不利である。上記の問題を解決するために,画像とビデオデータ訓練ネットワークモデルを同時に利用して,ビデオモード欠陥を効果的に解決することができて,また,顔モードが想起タスクに与える影響を,同時に比較して,この論文は,画像とビデオデータ訓練ネットワークモデルを同時に利用することができた。クラスタリングネットワークに注意力メカニズムを加えることで、ネットワークはテキストの語義と強く相関するモードに注目し、テキスト-ビデオの類似度値を高め、モデルの精度向上に有利である。実験データは,クラスタリングネットワークに基づくテキスト-ビデオ特徴学習が,テキスト-ビデオを一つの共通ベクトル空間に写像することができ,近い意味を持つテキストとビデオ距離が近づき,近いテキストとビデオ距離が遠いことを示した。MPIIとMSR-VTTデータセットにおいて,テキスト-ビデオ想起タスクに基づく評価モデルの性能は,他のモデルと比較して,2つのデータセットで精度が向上した。実験データは,クラスタリングネットワークに基づくテキスト-特徴学習が,テキスト-ビデオを1つの共通ベクトル空間に写像し,テキスト-ビデオ想起タスクに使用できることを示した。Data from Wanfang. Translated by JST.【JST・京大機械翻訳】

, , , , , , ,
, , , , , , , 【Automatic Indexing@JST】

人工知能 , 計算機網

, ,

前のページに戻る