プレプリント
J-GLOBAL ID:202202210358808939   整理番号:22P0310910

教師なし視覚言語構文解析:依存関係を介した言語構造による視覚的シーングラフのシームレスなブリッジング【JST・京大機械翻訳】

Unsupervised Vision-Language Parsing: Seamlessly Bridging Visual Scene Graphs with Language Structures via Dependency Relationships
著者 (4件):
資料名:
発行年: 2022年03月27日  プレプリントサーバーでの情報更新日: 2022年06月01日
JST資料番号: O7000B  資料種別: プレプリント
記事区分: プレプリント  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
言語記述と共に現実的視覚シーン画像を理解することは,一般的な視覚理解に向けた基本的タスクである。これまでの研究では,視覚シーン(例えば,シーングラフ)と自然言語(例えば,依存性ツリー)に対する階層構造の構築により,説得力のある包括的結果を示した。しかし,関節ビジョン言語(VL)構造を構築する方法はほとんど研究されていない。より挑戦的だが価値が高いが,そのような関節VL構造を教師なし方法で誘導する新しいタスクを導入した。著者らの目標は,視覚的シーングラフと言語依存性ツリーをシームレスに橋渡しすることである。VL構造データの欠如により,新しいデータセットVLParseを構築することにより始めた。引っ掻きからの労働集約的ラベリングの使用よりむしろ,粗い構造を生成する自動アラインメント手順を提案し,高品質なものを生産するためのヒト精密化を行った。さらに,著者らは,Vision-Language Graph Autoencoderのために,コントラスト学習(CL)ベースのフレームワークVLGAEを提案することによって,著者らのデータセットをベンチマークした。著者らのモデルは,2つの誘導タスク,すなわち,言語文法誘導とVLフレーズ接地に関して優れた性能を得る。アブレーションは,微細粒VL構造構築に対する視覚手がかりと依存性関係の両方の有効性を示した。【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (2件):
分類
JSTが定めた文献の分類名称とコードです
図形・画像処理一般  ,  パターン認識 

前のページに戻る