抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
視覚と言語情報を融合し,それらを表現することは,多くのアプリケーションで重要な研究問題である。最近の進捗は,画像を記述する言語表現で配列された画像を含むデータセットから表現を学習するために,変換者における事前訓練(言語モデリング)と注意層のアイデアを活用した。本論文では,それらのデータセットから自動的にマイニングされた,画像とテキストの間の,一連の含意された視覚的接地表現からの学習表現を提案した。特に,記述グラフを用いて,特定の概念(文章記述画像のような)が抽象的および一般的概念(例えば,短いフレーズのような)と視覚的に接地される方法を表現することができる。言語解析ツールを用いて,この種の一般的対特異的関係を見つけることができる。そのような関係を学習表現に組み込む方法を提案した。最先端のマルチモーダル学習モデルは,自動的に収穫された構造関係のレバレッジによりさらに改善されることを示した。表現は,クロスモーダル画像検索,参照表現,および構成属性-オブジェクト認識の下流タスクに関するより強い経験的結果をもたらす。Flickr30KとCOCOデータセットに関する著者らのコードと抽出された注釈グラフは,https://sha lab.github.io/DG上で公開されている。【JST・京大機械翻訳】