プレプリント
J-GLOBAL ID:202202220103519785   整理番号:22P0343995

予訓練されたユニモーダルおよびマルチモーダルモデルにおける視覚的常識【JST・京大機械翻訳】

Visual Commonsense in Pretrained Unimodal and Multimodal Models
著者 (4件):
資料名:
発行年: 2022年05月03日  プレプリントサーバーでの情報更新日: 2022年05月03日
JST資料番号: O7000B  資料種別: プレプリント
記事区分: プレプリント  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
オブジェクトに関する著者らの一般的知識は,それらの典型的視覚属性を含んだ。バナナは典型的な黄色または緑色であり,紫ではない。報告バイアスの対象であるテキストと画像コーパスは,この世界知識を忠実性の程度を変えて表現する。本論文では,単峰性(言語のみ)およびマルチモーダル(画像および言語)モデルが,広範囲の視覚的に突出した属性を捉えるかどうかを調べた。そのために,5000以上の被験者に対して5つの特性タイプ(色,形状,材料,サイズ,および視覚共起)をカバーするVisual Commsense test(ViComTe)データセットを作成した。このデータセットを,Paikら(2011)によって提供されたクラウドソースカラー判断による非接地テキストのみのデータよりも,この地上色データがはるかに良く相関することを示すことにより,このデータセットを検証した。次に,事前訓練された単峰モデルおよびマルチモーダルモデルを評価するために,著者らのデータセットを使用した。著者らの結果は,マルチモーダルモデルが属性分布をよりよく再構成するが,まだ報告バイアスの対象であることを示した。さらに,モデルサイズの増加は性能を強化しず,視覚コモンセンスの鍵がデータに存在することを示唆した。【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (2件):
分類
JSTが定めた文献の分類名称とコードです
その他の情報処理  ,  パターン認識 
タイトルに関連する用語 (3件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る