プレプリント
J-GLOBAL ID:202202213205991784   整理番号:22P0322088

文脈記述からの画像検索【JST・京大機械翻訳】

Image Retrieval from Contextual Descriptions
著者 (6件):
資料名:
発行年: 2022年03月29日  プレプリントサーバーでの情報更新日: 2022年03月29日
JST資料番号: O7000B  資料種別: プレプリント
記事区分: プレプリント  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
※このプレプリント論文は学術誌に掲載済みです。なお、学術誌掲載の際には一部内容が変更されている可能性があります。
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
知覚的および時間的手がかりを含むコンテキストを統合する能力は言語発話の意味を接地する上で重要な役割を果たす。現在の視覚と言語モデルがこの能力をどのようにマスターするかを測定するために,著者らは,新しいマルチモーダル課題,文脈記述からの画像検索(ImageCoDe)を考案した。特に,文脈記述に基づく10の最小コントラスト候補の集合から正しい画像を検索して,モデルをタスクした。このように,各記述は画像間の識別を助ける詳細のみを含んでいる。これのため,記述は構文論とディスコースに関して複雑であり,図面的推論を必要とする。画像は,静的画像とビデオフレームの両方に由来する。ImageCoDe上で,ViLBERTおよびCLIPのようなバイエンコーダのようなクロスエンコーダを含む,いくつかの最先端モデルベンチマークをベンチマークした。その結果,これらのモデルは,人間の性能の背景に劇的に遅れることが明らかになった:最良のバリアントは,人間の90.8と比較して,ビデオフレーム上で20.9,静的画像上で59.4の精度を達成した。さらに,視覚および時間コンテキストをそれらの表現に組み込むのにより良い新しいモデルバリアントを用いて,適度な利得を達成した。著者らの望みは,画像CoDEが,細粒視差に焦点を絞るモデルを促進することによって,地上言語理解における進歩を助長するということである。【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

分類 (2件):
分類
JSTが定めた文献の分類名称とコードです
パターン認識  ,  図形・画像処理一般 
タイトルに関連する用語 (3件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る