視覚と言語ナビゲーションのためのクロスモーダルマップ学習【JST・京大機械翻訳】

Georgakis Georgios; Schmeckpeper Karl; Wanchoo Karan; Dan Soham; Miltsakaki Eleni; Roth Dan; Daniilidis Kostas

プレプリント

J-GLOBAL ID：202202205645308722 整理番号：22P0301787

視覚と言語ナビゲーションのためのクロスモーダルマップ学習【JST・京大機械翻訳】

Cross-modal Map Learning for Vision and Language Navigation

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (7件)： , , , , , ,
資料名：
発行年： 2022年03月09日プレプリントサーバーでの情報更新日： 2022年03月21日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

Vision-and-Language Navigation(VLN)の問題を考察した。VLNに対する現在の方法の大部分は,LSTMのような非構造化メモリ,またはエージェントのエゴセントリック観察に対するクロスモーダル注意を用いて,エンドツーエンドに訓練された。他の研究とは対照的に,著者らの重要な洞察は,言語と視覚の間の関係が,明示的空間表現で生じるとき,より強いことである。本研究では,まず,観測および非観測領域の両方に対するエゴセントリックマップ上のトップダウン意味論の予測を学習するビジョンおよび言語ナビゲーションのためのクロスモーダルマップ学習モデルを提案し,次に,一連のポイントポイントとして目標に向けての経路を予測した。両事例において,予測をクロスモーダル注意機構を通して言語によって知る。著者らは,言語駆動ナビゲーションがマップを与えて解くことができる基本的仮説を実験的にテストして,次に,完全なVLN-CEベンチマークに関する競合結果を示した。【JST・京大機械翻訳】

, , , , , , , , , ,
, , 【Automatic Indexing@JST】

応用心理学 , パターン認識

, , ,

前のページに戻る