アノテーショングラフによる画像とテキスト表現の学習【JST・京大機械翻訳】

Zhang Bowen; Hu Hexiang; Jain Vihan; Ie Eugene; Sha Fei

プレプリント

J-GLOBAL ID：202202202509808003 整理番号：22P0197740

アノテーショングラフによる画像とテキスト表現の学習【JST・京大機械翻訳】

Learning to Represent Image and Text with Denotation Graph

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (5件)： , , , ,
資料名：
発行年： 2020年10月06日プレプリントサーバーでの情報更新日： 2020年10月06日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

視覚と言語情報を融合し,それらを表現することは,多くのアプリケーションで重要な研究問題である。最近の進捗は,画像を記述する言語表現で配列された画像を含むデータセットから表現を学習するために,変換者における事前訓練(言語モデリング)と注意層のアイデアを活用した。本論文では,それらのデータセットから自動的にマイニングされた,画像とテキストの間の,一連の含意された視覚的接地表現からの学習表現を提案した。特に,記述グラフを用いて,特定の概念(文章記述画像のような)が抽象的および一般的概念(例えば,短いフレーズのような)と視覚的に接地される方法を表現することができる。言語解析ツールを用いて,この種の一般的対特異的関係を見つけることができる。そのような関係を学習表現に組み込む方法を提案した。最先端のマルチモーダル学習モデルは,自動的に収穫された構造関係のレバレッジによりさらに改善されることを示した。表現は,クロスモーダル画像検索,参照表現,および構成属性-オブジェクト認識の下流タスクに関するより強い経験的結果をもたらす。Flickr30KとCOCOデータセットに関する著者らのコードと抽出された注釈グラフは,https://sha lab.github.io/DG上で公開されている。【JST・京大機械翻訳】

, , , , , , , , , , , , ,
, , 【Automatic Indexing@JST】

図形・画像処理一般 , パターン認識

前のページに戻る