文献
J-GLOBAL ID:202002274715725878   整理番号:20A1890199

ビデオキャプションのための適応型注意機構に基づく意味構成ネットワーク【JST・京大機械翻訳】

Adaptive Attention Mechanism Based Semantic Compositional Network for Video Captioning
著者 (8件):
資料名:
巻: 1251  ページ: 45-55  発行年: 2020年 
JST資料番号: W5075A  ISSN: 2194-5357  資料種別: 会議録 (C)
記事区分: 原著論文  発行国: ドイツ (DEU)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
ビデオキャプティングタスクはビデオ中のコンテンツを記述するテキストを生成することである。適切な記述を生成するために,多くの人々がビデオ生成プロセスに明示的な意味情報を付加し始めた。しかしながら,最近の研究において,ビデオにおける意味論のマイニングによって,いくつかの既存の方法における意味情報は,復号化プロセスにおいて,より小さくて,より小さな役割を果すであろう。さらに,復号器は,不正確または誤った結果を生成する視覚語彙と非視覚語彙を含むすべての生成語に時間的注意機構を適用する。限界を克服するために,1)各ビデオフレームから複合セマンティックタグに対する視覚特徴を検出し,復号化段階でセマンティック組合せネットワークを導入した。著者らは,セマンティックタグの役割を果たすように,長い短期メモリ(LSTM)における付加的パラメータとして,各セマンティックオブジェクトの確率を用いて,2つのレベルのLSTMを,それぞれ,時間的注意機構および適応注意機構と組み合わせた。次に,ビデオキャプテーションのための適応型の注意機構ベースの意味構成ネットワーク(AASCNet)を提案した。特に,このフレームワークは,次の単語を予測するために,特定の視覚特徴を選択するために,時間的注意機構を使用し,そして,それが視覚特徴またはコンテキスト情報に依存するかどうかを決定するために,適応注意機構を使用した。MSVDビデオキャプテーションデータセット上で行った大規模な実験は,最先端の手法と比較して,著者らの方法の有効性を証明した。Copyright Springer Nature Switzerland AG 2021 Translated from English into Japanese by JST.【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (1件):
分類
JSTが定めた文献の分類名称とコードです
図形・画像処理一般 
タイトルに関連する用語 (4件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る