プレプリント
J-GLOBAL ID:202202217346177415   整理番号:22P0310722

動的オーディオビジュアルシナリオにおける質問応答の学習【JST・京大機械翻訳】

Learning to Answer Questions in Dynamic Audio-Visual Scenarios
著者 (6件):
資料名:
発行年: 2022年03月26日  プレプリントサーバーでの情報更新日: 2022年04月05日
JST資料番号: O7000B  資料種別: プレプリント
記事区分: プレプリント  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
本論文では,ビデオにおける異なる視覚オブジェクト,音,およびそれらの関連に関する質問に答えることを目的として,Audio-Visual Quession Answing(AVQA)タスクに焦点を当てた。この問題は,オーディオビジュアルシーン上の包括的なマルチモーダル理解と時空間推論を必要とする。このタスクをベンチマークし,研究を容易にするため,異なるモダリティと質問タイプにわたる33の異なる質問テンプレートをカバーする45K以上の質問-回答ペアを含む大規模MUSIC-AVQAデータセットを導入した。AVQA問題に対して,いくつかのベースラインを開発し,時空間接地オーディオビジュアルネットワークを導入した。著者らの結果は,AVQAがマルチセンサ知覚から利益を得て,著者らのモデルが最近のA-,V-,およびAVQAアプローチより優れていることを実証した。構築したデータセットは,オーディオビジュアルシーン理解と時空間推論における進展の評価と促進のためのテストベッドとして役立つ可能性があると信じる。コードとデータセット:http://gewu lab.github.io/MUSIC AVQA/;【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (5件):
分類
JSTが定めた文献の分類名称とコードです
人工知能  ,  情報サービス  ,  自然語処理  ,  その他の情報処理  ,  医用情報処理 
タイトルに関連する用語 (4件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る