抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
模倣学習は,高価なランダム探査プロセスに依存しないので,実世界におけるロボット政策を訓練するための有効で安全な技術である。しかし,探査の欠如のため,実証行動を越えて一般化する学習政策はまだ未解決の課題である。ロボットが,少数の人間実証から効率的に複雑な実世界操作タスクを学習できる新しい模倣学習フレームワークを提示し,2)収集した実証に含まれない新しい行動を合成する。重要な洞察は,マルチタスクドメインが,しばしば潜在構造を示し,そこでは,異なるタスクに対する軌跡が状態空間の共通領域で交差することを示した。この交差構造を利用する2段階オフラインイミテーション学習アルゴリズムであるイミテーション(GTI)による一般化を行い,開始と目標状態の組み合わせを一般化する目標指向ポリシーを訓練する。GTIの第1段階では,異なる実証軌跡から行動を構成する能力をもつ軌道交差点を利用する確率的ポリシーを訓練する。GTIの第2段階では,第1段階の非条件付き確率政策からロールアウトの小集合を収集し,目標指向エージェントを訓練して,新しいスタートと目標構成に一般化する。実世界におけるシミュレーションドメインと挑戦的な長水平ロボット操作ドメインの両方でGTIを検証した。追加結果とビデオはhttps://sites.google.com/view/gti2020/で利用可能である。【JST・京大機械翻訳】