テキストに書かれたもの:視覚信号からの空間常識の探索【JST・京大機械翻訳】

Liu Xiao; Yin Da; Feng Yansong; Zhao Dongyan

プレプリント

J-GLOBAL ID：202202201014970550 整理番号：22P0304725

テキストに書かれたもの:視覚信号からの空間常識の探索【JST・京大機械翻訳】

Things not Written in Text: Exploring Spatial Commonsense from Visual Signals

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (4件)： , , ,
資料名：
発行年： 2022年03月15日プレプリントサーバーでの情報更新日： 2022年04月27日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

空間コモンセンス,空間位置に関する知識,およびオブジェクト間の関係(リオンと女児の相対的サイズのような)と,サイクリング時の自転車に対する少年の位置は,共通の知識の重要な部分である。事前訓練された言語モデル(PLM)は多くのNLPタスクに成功するが,それらは空間コモンセンス推論において無効であることが示されている。画像がテキストよりも空間コモンセンスを示す可能性が高いという観測から始めて,視覚信号を持つモデルがテキストベースPLMよりも空間コモンセンスを学習するかどうかを検討した。オブジェクトの相対スケールと,異なる行動の下での人々とオブジェクト間の位置関係に焦点を当てた空間共通センスベンチマークを提案した。このベンチマーク上で視覚言語事前訓練モデルと画像合成モデルを含む視覚信号によるPLMとモデルを調べ,画像合成モデルが他のモデルよりも正確で一貫した空間知識を学習できることを見出した。画像合成モデルからの空間知識は,空間コモンセンスを必要とする自然言語理解タスクにも役立つ。【JST・京大機械翻訳】

, , , , , , , , ,
, , 【Automatic Indexing@JST】

図形・画像処理一般

前のページに戻る