ビジョンとシーンテキスト上の結合推論のためのマルチモーダルグラフニューラルネットワーク【JST・京大機械翻訳】

Gao Difei; Li Ke; Wang Ruiping; Shan Shiguang; Chen Xilin

プレプリント

J-GLOBAL ID：202202220804525445 整理番号：22P0128998

ビジョンとシーンテキスト上の結合推論のためのマルチモーダルグラフニューラルネットワーク【JST・京大機械翻訳】

Multi-Modal Graph Neural Network for Joint Reasoning on Vision and Scene Text

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (5件)： , , , ,
資料名：
発行年： 2020年03月31日プレプリントサーバーでの情報更新日： 2020年03月31日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

画像中にテキストを読む必要のある質問は,現在のモデルにとって困難である。この課題の1つの重要な困難は,希少,多義性,および曖昧語が頻繁に画像,例えば,場所,製品,およびスポーツチームの名前で現れることである。この困難を克服するため,事前訓練された単語埋め込みモデルだけに頼ることは,十分には遠い。望ましいモデルは,シーンテキストの意味を理解するのを助けるために,画像の多重モダリティにおける豊富な情報を利用するべきであり,例えば,ボトルに関する突出したテキストは,ブランドである可能性が高い。このアイデアに従って,新しいVQAアプローチ,マルチモーダルグラフニューラルネットワーク(MM-GNN)を提案した。それはまず,3つのサブグラフからなるグラフとして画像を表し,それぞれ視覚,意味,および数値モダリティを描写する。次に,ノードの特徴を改善するために,1つのグラフからもう1つのグラフへのメッセージ通過をガイドする3つのアグリゲータを導入した。更新されたノードは,下流質問応答モジュールのためのより良い特徴を持っている。実験的評価は,著者らのMM-GNNが,シーンテキストをよりよく表現し,そして,読取シーンテキストを必要とする2つのVQAタスクに関する性能を明らかに促進することを示した。【JST・京大機械翻訳】

, , , , , , , , , , , , ,
, 【Automatic Indexing@JST】

図形・画像処理一般 , パターン認識

, ,

前のページに戻る