プレプリント
J-GLOBAL ID:202202210427493180   整理番号:22P0026202

視覚的質問応答における共注意変圧器層の有効性について【JST・京大機械翻訳】

On the Efficacy of Co-Attention Transformer Layers in Visual Question Answering
著者 (2件):
資料名:
発行年: 2022年01月11日  プレプリントサーバーでの情報更新日: 2022年01月11日
JST資料番号: O7000B  資料種別: プレプリント
記事区分: プレプリント  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
近年,マルチモーダル変圧器は,Visual Quession Answing(VQA)のようなVision-Languageタスクにおいて顕著な進歩を示し,かなりのマージンによって以前のアーキテクチャを凌駕する。VQAのこの改善は,しばしば視覚と言語ストリーム間の豊富な相互作用に起因する。本研究では,質問に答える間,ネットワーク焦点を関連領域に対して支援する際の共注意変圧器層の有効性を調べた。これらの共注意層における質問条件画像注意スコアを用いて視覚注意マップを作成した。最先端のVQAモデルの視覚注意に対する次の臨界成分の影響を評価した。(i)オブジェクト領域提案の数,(ii)音声の質問部分(POS)タグ,(iii)質問意味論,(iv)共注意層の数,および(v)回答精度。ニューラルネットワーク注意マップを,定性的および定量的にヒト注意マップと比較した。本知見は,共注意変圧器モジュールが,質問を与える画像の関連領域に対して重要であることを示した。重要なことは,質問の意味が視覚的注意を駆動しないが,質問における特定のキーワードが何であるのかを観察することである。本研究は,共注意変圧器層の機能と解釈に光を当て,現在のネットワークにおけるギャップを強調し,視覚と言語ストリームを同時に処理する将来のVQAモデルとネットワークの開発を導くことができる。【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (1件):
分類
JSTが定めた文献の分類名称とコードです
図形・画像処理一般 
タイトルに関連する用語 (5件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る