予訓練されたユニモーダルおよびマルチモーダルモデルにおける視覚的常識【JST・京大機械翻訳】

Zhang Chenyu; Van Durme Benjamin; Li Zhuowan; Stengel-Eskin Elias

プレプリント

J-GLOBAL ID：202202220103519785 整理番号：22P0343995

予訓練されたユニモーダルおよびマルチモーダルモデルにおける視覚的常識【JST・京大機械翻訳】

Visual Commonsense in Pretrained Unimodal and Multimodal Models

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (4件)： , , ,
資料名：
発行年： 2022年05月03日プレプリントサーバーでの情報更新日： 2022年05月03日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

オブジェクトに関する著者らの一般的知識は,それらの典型的視覚属性を含んだ。バナナは典型的な黄色または緑色であり,紫ではない。報告バイアスの対象であるテキストと画像コーパスは,この世界知識を忠実性の程度を変えて表現する。本論文では,単峰性(言語のみ)およびマルチモーダル(画像および言語)モデルが,広範囲の視覚的に突出した属性を捉えるかどうかを調べた。そのために,5000以上の被験者に対して5つの特性タイプ(色,形状,材料,サイズ,および視覚共起)をカバーするVisual Commsense test(ViComTe)データセットを作成した。このデータセットを,Paikら(2011)によって提供されたクラウドソースカラー判断による非接地テキストのみのデータよりも,この地上色データがはるかに良く相関することを示すことにより,このデータセットを検証した。次に,事前訓練された単峰モデルおよびマルチモーダルモデルを評価するために,著者らのデータセットを使用した。著者らの結果は,マルチモーダルモデルが属性分布をよりよく再構成するが,まだ報告バイアスの対象であることを示した。さらに,モデルサイズの増加は性能を強化しず,視覚コモンセンスの鍵がデータに存在することを示唆した。【JST・京大機械翻訳】

, , , , , , , , ,
, , 【Automatic Indexing@JST】

その他の情報処理 , パターン認識

, ,

前のページに戻る