人間デモンストレーションからの長期水平タスクを一般化するための学習【JST・京大機械翻訳】

Mandlekar Ajay; Xu Danfei; Martin-Martin Roberto; Savarese Silvio; Fei-Fei Li

プレプリント

J-GLOBAL ID：202202210785788531 整理番号：21P0026600

人間デモンストレーションからの長期水平タスクを一般化するための学習【JST・京大機械翻訳】

Learning to Generalize Across Long-Horizon Tasks from Human Demonstrations

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (5件)： , , , ,
資料名：
発行年： 2020年03月12日プレプリントサーバーでの情報更新日： 2021年06月23日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

模倣学習は,高価なランダム探査プロセスに依存しないので,実世界におけるロボット政策を訓練するための有効で安全な技術である。しかし,探査の欠如のため,実証行動を越えて一般化する学習政策はまだ未解決の課題である。ロボットが,少数の人間実証から効率的に複雑な実世界操作タスクを学習できる新しい模倣学習フレームワークを提示し,2)収集した実証に含まれない新しい行動を合成する。重要な洞察は,マルチタスクドメインが,しばしば潜在構造を示し,そこでは,異なるタスクに対する軌跡が状態空間の共通領域で交差することを示した。この交差構造を利用する2段階オフラインイミテーション学習アルゴリズムであるイミテーション(GTI)による一般化を行い,開始と目標状態の組み合わせを一般化する目標指向ポリシーを訓練する。GTIの第1段階では,異なる実証軌跡から行動を構成する能力をもつ軌道交差点を利用する確率的ポリシーを訓練する。GTIの第2段階では,第1段階の非条件付き確率政策からロールアウトの小集合を収集し,目標指向エージェントを訓練して,新しいスタートと目標構成に一般化する。実世界におけるシミュレーションドメインと挑戦的な長水平ロボット操作ドメインの両方でGTIを検証した。追加結果とビデオはhttps://sites.google.com/view/gti2020/で利用可能である。【JST・京大機械翻訳】

, , , , , ,
, , , , 【Automatic Indexing@JST】

ロボットの運動・制御

, , , , ,

前のページに戻る