抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
ビジョン-言語ナビゲーション(VLN)は,環境におけるその大きな探索空間のために,挑戦的なタスクである。この問題に取り組むために,以前の研究は大規模データセットで事前訓練された大規模モデルを微調整するいくつかの方法を提案した。しかし,従来の微調整法は,余分な人間ラベルナビゲーションデータを必要とし,環境における自己探索能力を欠いているが,それは,それらの非意味シーンの一般化を妨げている。高速交差ドメイン適応の能力を改善するために,著者らは,サンプリング軌道により環境を自己探索し,大規模クロスモーダル事前訓練モデル(CLIP)により構造化命令を自動的に生成できるPromptベース環境自己探索(ProbES)を提案した。提案手法は,CLIPから学習された知識を完全に利用し,人間のラベリングなしに自己探索によりドメイン内データセットを構築する。微調整の従来手法とは異なり,言語埋込みに対する高速適応を達成するために,事前知識をレバーグすることにより学習効率を大幅に改善する,迅速な学習を導入した。人間の監督と効率的な高速ベース学習なしに任意の環境において軌道-命令ペアを自動的に合成することにより,このモデルはVLNとREVERIEを含む多様なビジョン言語ナビゲーションタスクに適応できる。定性的および定量的結果は,著者らのProbESがナビゲーションモデルの一般化能力を著しく改善することを示した。【JST・京大機械翻訳】