文脈記述からの画像検索【JST・京大機械翻訳】

Krojer Benno; Adlakha Vaibhav; Vineet Vibhav; Goyal Yash; Ponti Edoardo; Reddy Siva

プレプリント

J-GLOBAL ID：202202213205991784 整理番号：22P0322088

文脈記述からの画像検索【JST・京大機械翻訳】

Image Retrieval from Contextual Descriptions

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (6件)： , , , , ,
資料名：
発行年： 2022年03月29日プレプリントサーバーでの情報更新日： 2022年03月29日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

※このプレプリント論文は学術誌に掲載済みです。なお、学術誌掲載の際には一部内容が変更されている可能性があります。

知覚的および時間的手がかりを含むコンテキストを統合する能力は言語発話の意味を接地する上で重要な役割を果たす。現在の視覚と言語モデルがこの能力をどのようにマスターするかを測定するために,著者らは,新しいマルチモーダル課題,文脈記述からの画像検索(ImageCoDe)を考案した。特に,文脈記述に基づく10の最小コントラスト候補の集合から正しい画像を検索して,モデルをタスクした。このように,各記述は画像間の識別を助ける詳細のみを含んでいる。これのため,記述は構文論とディスコースに関して複雑であり,図面的推論を必要とする。画像は,静的画像とビデオフレームの両方に由来する。ImageCoDe上で,ViLBERTおよびCLIPのようなバイエンコーダのようなクロスエンコーダを含む,いくつかの最先端モデルベンチマークをベンチマークした。その結果,これらのモデルは,人間の性能の背景に劇的に遅れることが明らかになった:最良のバリアントは,人間の90.8と比較して,ビデオフレーム上で20.9,静的画像上で59.4の精度を達成した。さらに,視覚および時間コンテキストをそれらの表現に組み込むのにより良い新しいモデルバリアントを用いて,適度な利得を達成した。著者らの望みは,画像CoDEが,細粒視差に焦点を絞るモデルを促進することによって,地上言語理解における進歩を助長するということである。【JST・京大機械翻訳】

, , , , , , , , , , , , , ,

パターン認識 , 図形・画像処理一般

, ,

前のページに戻る