抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
オブジェクトに関する著者らの一般的知識は,それらの典型的視覚属性を含んだ。バナナは典型的な黄色または緑色であり,紫ではない。報告バイアスの対象であるテキストと画像コーパスは,この世界知識を忠実性の程度を変えて表現する。本論文では,単峰性(言語のみ)およびマルチモーダル(画像および言語)モデルが,広範囲の視覚的に突出した属性を捉えるかどうかを調べた。そのために,5000以上の被験者に対して5つの特性タイプ(色,形状,材料,サイズ,および視覚共起)をカバーするVisual Commsense test(ViComTe)データセットを作成した。このデータセットを,Paikら(2011)によって提供されたクラウドソースカラー判断による非接地テキストのみのデータよりも,この地上色データがはるかに良く相関することを示すことにより,このデータセットを検証した。次に,事前訓練された単峰モデルおよびマルチモーダルモデルを評価するために,著者らのデータセットを使用した。著者らの結果は,マルチモーダルモデルが属性分布をよりよく再構成するが,まだ報告バイアスの対象であることを示した。さらに,モデルサイズの増加は性能を強化しず,視覚コモンセンスの鍵がデータに存在することを示唆した。【JST・京大機械翻訳】