即発ベース環境自己爆発による視覚言語ナビゲーションプレトレーニング【JST・京大機械翻訳】

Liang Xiwen; Zhu Fengda; Li Lingling; Xu Hang; Liang Xiaodan

プレプリント

J-GLOBAL ID：202202212246624196 整理番号：22P0300656

即発ベース環境自己爆発による視覚言語ナビゲーションプレトレーニング【JST・京大機械翻訳】

Visual-Language Navigation Pretraining via Prompt-based Environmental Self-exploration

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (5件)： , , , ,
資料名：
発行年： 2022年03月08日プレプリントサーバーでの情報更新日： 2022年03月08日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

ビジョン-言語ナビゲーション(VLN)は,環境におけるその大きな探索空間のために,挑戦的なタスクである。この問題に取り組むために,以前の研究は大規模データセットで事前訓練された大規模モデルを微調整するいくつかの方法を提案した。しかし,従来の微調整法は,余分な人間ラベルナビゲーションデータを必要とし,環境における自己探索能力を欠いているが,それは,それらの非意味シーンの一般化を妨げている。高速交差ドメイン適応の能力を改善するために,著者らは,サンプリング軌道により環境を自己探索し,大規模クロスモーダル事前訓練モデル(CLIP)により構造化命令を自動的に生成できるPromptベース環境自己探索(ProbES)を提案した。提案手法は,CLIPから学習された知識を完全に利用し,人間のラベリングなしに自己探索によりドメイン内データセットを構築する。微調整の従来手法とは異なり,言語埋込みに対する高速適応を達成するために,事前知識をレバーグすることにより学習効率を大幅に改善する,迅速な学習を導入した。人間の監督と効率的な高速ベース学習なしに任意の環境において軌道-命令ペアを自動的に合成することにより,このモデルはVLNとREVERIEを含む多様なビジョン言語ナビゲーションタスクに適応できる。定性的および定量的結果は,著者らのProbESがナビゲーションモデルの一般化能力を著しく改善することを示した。【JST・京大機械翻訳】

, , , ,
, , , , , 【Automatic Indexing@JST】

ロボットの運動・制御 , 人工知能

, , ,

前のページに戻る