ソクラティックモデル:言語によるゼロショットマルチモーダル推論の構成【JST・京大機械翻訳】

Zeng Andy; Attarian Maria; Ichter Brian; Choromanski Krzysztof; Wong Adrian; Welker Stefan; Tombari Federico; Purohit Aveek; Ryoo Michael; Sindhwani Vikas; Lee Johnny; Vanhoucke Vincent; Florence Pete

プレプリント

J-GLOBAL ID：202202213127558882 整理番号：22P0324095

ソクラティックモデル:言語によるゼロショットマルチモーダル推論の構成【JST・京大機械翻訳】

Socratic Models: Composing Zero-Shot Multimodal Reasoning with Language

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (13件)： , , , , , , , , , , , ,
資料名：
発行年： 2022年04月01日プレプリントサーバーでの情報更新日： 2022年05月27日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

大規模事前訓練(例えば「基礎」)モデルは,それらが訓練されたデータのドメインに依存して異なる能力を示す。これらのドメインは一般的であるが,それらはわずかに重複するかもしれない。例えば,視覚言語モデル(VLM)はインターネットスケール画像キャップで訓練されるが,大規模言語モデル(LM)は,画像のないインターネットスケールテキスト(例えば,スプレッドシート,SAT質問,コード)でさらに訓練される。その結果,これらのモデルは,異なるドメインにわたる共通の知識の異なった形態を保存する。本研究では,この多様性は共生的であり,Socrattic Model(SMs)により活用できる:多重事前訓練モデルがゼロショット,即ち,マルチモーダルインフォーム化により,互いに情報を交換し,微調整を必要とせずに新しいマルチモーダル能力を捉えるモジュールフレームワークである,ということを示した。最小工学では,SMsは最先端のゼロショット画像キャプテーションとビデオツーテキスト検索と競合するだけでなく,(i)外部APIとデータベース(例えば,Web検索)とのインターフェイシングによるマルチモーダル支援対話と,(iii)ロボット知覚とプランニングとの対話により,(例えば,調理レシピのための)エゴセントリックビデオに関する自由形式質問に答えるような新しいアプリケーションも可能にする。【JST・京大機械翻訳】

, , , , , , , , , , , ,
, , 【Automatic Indexing@JST】

パターン認識 , 人工知能

前のページに戻る