文献
J-GLOBAL ID:202002256438512053   整理番号:20A0432984

ビデオ物語:イベントのためのテキスト要約【JST・京大機械翻訳】

Video Storytelling: Textual Summaries for Events
著者 (4件):
資料名:
巻: 22  号:ページ: 554-565  発行年: 2020年 
JST資料番号: W1116A  ISSN: 1520-9210  CODEN: ITMUF8  資料種別: 逐次刊行物 (A)
記事区分: 原著論文  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
ブリッジビジョンと自然言語は,コンピュータビジョンとマルチメディア研究における長年の目標である。以前の研究は視覚コンテンツに対する単一文記述の生成に焦点を当てているが,最近の研究はパラグラフ生成を研究している。本論文では,長いビデオのためのコヒーレントで簡潔なストーリーを生成することを目的としたビデオストーリングの問題を紹介した。ビデオストーリングは,主に層の多様性とビデオの長さと複雑さのために新しい挑戦を導入する。挑戦に取り組むための新しい方法を提案した。最初に,著者らは,多モード埋込み学習のための文脈認識フレームワークを提案した。そこでは,著者らは,過去と将来から文脈情報を活用するために,残差双方向再帰ニューラルネットワークを設計した。次に,多モード埋込みを用いて,ビデオクリップのための文章を検索した。第二に,著者らは,根底にあるストーリーの代表であるクリップを選択するためのnarレータモデルを提案した。narレータは強化学習エージェントとして定式化され,それは生成された階のテキストメトリックを直接最適化することによって訓練される。この方法をビデオ層データセット上で評価し,研究を可能にする新しいデータセットを収集した。本手法を複数の最先端ベースラインと比較し,本手法が定量的測度とユーザ研究に関してより良い性能を達成することを示した。Copyright 2020 The Institute of Electrical and Electronics Engineers, Inc. All rights reserved. Translated from English into Japanese by JST.【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

分類 (2件):
分類
JSTが定めた文献の分類名称とコードです
図形・画像処理一般  ,  パターン認識 
タイトルに関連する用語 (4件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る