教師なし視覚言語構文解析:依存関係を介した言語構造による視覚的シーングラフのシームレスなブリッジング【JST・京大機械翻訳】

Lou Chao; Han Wenjuan; Lin Yuhuan; Zheng Zilong

プレプリント

J-GLOBAL ID：202202210358808939 整理番号：22P0310910

教師なし視覚言語構文解析:依存関係を介した言語構造による視覚的シーングラフのシームレスなブリッジング【JST・京大機械翻訳】

Unsupervised Vision-Language Parsing: Seamlessly Bridging Visual Scene Graphs with Language Structures via Dependency Relationships

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (4件)： , , ,
資料名：
発行年： 2022年03月27日プレプリントサーバーでの情報更新日： 2022年06月01日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

言語記述と共に現実的視覚シーン画像を理解することは,一般的な視覚理解に向けた基本的タスクである。これまでの研究では,視覚シーン(例えば,シーングラフ)と自然言語(例えば,依存性ツリー)に対する階層構造の構築により,説得力のある包括的結果を示した。しかし,関節ビジョン言語(VL)構造を構築する方法はほとんど研究されていない。より挑戦的だが価値が高いが,そのような関節VL構造を教師なし方法で誘導する新しいタスクを導入した。著者らの目標は,視覚的シーングラフと言語依存性ツリーをシームレスに橋渡しすることである。VL構造データの欠如により,新しいデータセットVLParseを構築することにより始めた。引っ掻きからの労働集約的ラベリングの使用よりむしろ,粗い構造を生成する自動アラインメント手順を提案し,高品質なものを生産するためのヒト精密化を行った。さらに,著者らは,Vision-Language Graph Autoencoderのために,コントラスト学習(CL)ベースのフレームワークVLGAEを提案することによって,著者らのデータセットをベンチマークした。著者らのモデルは,2つの誘導タスク,すなわち,言語文法誘導とVLフレーズ接地に関して優れた性能を得る。アブレーションは,微細粒VL構造構築に対する視覚手がかりと依存性関係の両方の有効性を示した。【JST・京大機械翻訳】

, , , , , , , , , , , , , ,
, 【Automatic Indexing@JST】

図形・画像処理一般 , パターン認識

, , , , , , , , ,

前のページに戻る