文献
J-GLOBAL ID:202102230540086720   整理番号:21A0739188

クラスタリングネットワークに基づくテキスト-ビデオ特徴学習【JST・京大機械翻訳】

Text-Video Feature Learning Based on Clustering Network
著者 (3件):
資料名:
巻: 47  号:ページ: 125-129  発行年: 2020年 
JST資料番号: C2530A  ISSN: 1002-137X  資料種別: 逐次刊行物 (A)
記事区分: 原著論文  発行国: 中国 (CHN)  言語: 中国語 (ZH)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
ビデオコンテンツとテキスト意味論の総合的理解は,多くの分野で広く研究されてきた。初期の研究は主にテキスト-ビデオを一つの公共ベクトル空間にマッピングするが、この方法が直面する一つの問題は大規模なテキスト-ビデオデータセットが不足していることである。ビデオデータには大きい情報冗長性があるため、直接3Dネットワークを通じて全体のビデオ特徴を抽出することは、ネットワークパラメータが多く、リアルタイム性が悪いため、ビデオタスクの実行に不利である。上記の問題を解決するために,画像とビデオデータ訓練ネットワークモデルを同時に利用して,ビデオモード欠陥を効果的に解決することができて,また,顔モードが想起タスクに与える影響を,同時に比較して,この論文は,画像とビデオデータ訓練ネットワークモデルを同時に利用することができた。クラスタリングネットワークに注意力メカニズムを加えることで、ネットワークはテキストの語義と強く相関するモードに注目し、テキスト-ビデオの類似度値を高め、モデルの精度向上に有利である。実験データは,クラスタリングネットワークに基づくテキスト-ビデオ特徴学習が,テキスト-ビデオを一つの共通ベクトル空間に写像することができ,近い意味を持つテキストとビデオ距離が近づき,近いテキストとビデオ距離が遠いことを示した。MPIIとMSR-VTTデータセットにおいて,テキスト-ビデオ想起タスクに基づく評価モデルの性能は,他のモデルと比較して,2つのデータセットで精度が向上した。実験データは,クラスタリングネットワークに基づくテキスト-特徴学習が,テキスト-ビデオを1つの共通ベクトル空間に写像し,テキスト-ビデオ想起タスクに使用できることを示した。Data from Wanfang. Translated by JST.【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (2件):
分類
JSTが定めた文献の分類名称とコードです
人工知能  ,  計算機網 
タイトルに関連する用語 (3件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る