文献
J-GLOBAL ID:202202259353675881   整理番号:22A0203196

損失再スケーリングVQA:クラス不均衡ビューからの言語事前問題の再検討【JST・京大機械翻訳】

Loss Re-Scaling VQA: Revisiting the Language Prior Problem From a Class-Imbalance View
著者 (5件):
資料名:
巻: 31  ページ: 227-238  発行年: 2022年 
JST資料番号: W0364A  ISSN: 1057-7149  CODEN: IIPRE4  資料種別: 逐次刊行物 (A)
記事区分: 原著論文  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
最近の研究では,多くのよく開発された視覚質問(VQA)モデルが言語事前問題により大きく影響を受けることを指摘した。それは,視覚コンテンツに関する推論の代わりに,テキスト質問と回答の間の共起パターンに基づく予測を言及する。この問題に取り組むために,ほとんどの既存の方法は,モデル決定に対するこのテキストショートカット影響を低減するための視覚特徴学習能力の強化に焦点を合わせている。しかし,その固有の原因を分析し,明示的な解釈を提供する努力はほとんど払われていない。したがって,研究コミュニティに対する良好な指針は,意図的な方法で前進し,この非自明な問題を克服するためのモデル構築の複雑化をもたらす。本論文では,クラス不均衡ビューからVQAにおける言語事前問題を解釈することを提案する。具体的には,同じ質問タイプからの誤予測頻繁およびスパース回答の喪失が,後期訓練段階で明らかに示される新しい解釈方式を設計した。VQAモデルが,訓練セットにおいて正しい回答がまばらである与えられた質問に対して,頻繁に,明らかに誤った回答を生成する傾向があることを明示的に明らかにした。この観察に基づき,最終損失を推定するための訓練データ統計に従って,各回答に対して異なる重みを割り当てる新しい損失再スケーリング手法を提案した。このアプローチを6つの強いベースラインに適用して,2つのVQA-CPベンチマークデータセットに関する実験結果は,明らかにその有効性を示した。さらに,顔認識や画像分類のような他のコンピュータビジョンタスクに関するクラス不均衡解釈方式の妥当性を正当化した。Copyright 2022 The Institute of Electrical and Electronics Engineers, Inc. All rights reserved. Translated from English into Japanese by JST.【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (2件):
分類
JSTが定めた文献の分類名称とコードです
図形・画像処理一般  ,  人工知能 
タイトルに関連する用語 (5件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る