ロボットスキルのデータ効率的な一般化のためのモデルベースの文脈政策探索【Powered by NICT】

Kupcsik Andras; Kupcsik Andras; Deisenroth Marc Peter; Peters Jan; Peters Jan; Loh Ai Poh; Vadakkepat Prahlad; Neumann Gerhard

文献

J-GLOBAL ID：201702237229441418 整理番号：17A1055360

ロボットスキルのデータ効率的な一般化のためのモデルベースの文脈政策探索【Powered by NICT】

Model-based contextual policy search for data-efficient generalization of robot skills

出版者サイト複写サービスで全文入手
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=17A1055360&from=J-GLOBAL&jstjournalNo=E0180C") }}

著者 (8件)： , , , , , , ,
資料名：
巻： 247 ページ： 415-439 発行年： 2017年
JST資料番号： E0180C ISSN： 0004-3702 資料種別：逐次刊行物 (A)
記事区分：原著論文発行国：オランダ (NLD) 言語：英語 (EN)

ロボットでは,低レベルコントローラは,ロボットが固定文脈における特定のタスクを解くために通常使用される。例えば,下位レベル制御器は打球動作を符号化できる状況はターゲット座標を定義するヒットした。しかし,多くの学習問題における文脈はタスク実行の間の変化する可能性がある。新しい文脈に政策を適応させるために,著者らは新しい状況に低レベルコントローラを一般化する上層政策を学習することにより階層的アプローチを利用した。このような上層政策を学習するための一般的なアプローチは,ポリシー探索を使用することである。しかし,電流文脈ポリシー探索アプローチの大部分はモデルフリーとロボットとその環境との多数の相互作用を必要とする。モデルに基づく手法では,ロボット実験の量を大幅に低減することが知られているが,電流モデルベース技術は学習文脈上層政策の問題に直接的に適用できない。政策の特異的パラメータ化と報酬関数,文脈ポリシー探索定式化においてしばしば非現実的に依存する。本論文では,低レベルコントローラを一般化することができ,データ効率的であることを新しいモデルベース文脈ポリシー探索アルゴリズムを提案した。我々のアプローチは,学習した確率的順方向モデルと情報理論的ポリシー探索に基づいている。電流アルゴリズムとは異なり,提案手法では,政策や報酬関数のパラメータ化にいかなる仮定も必要としない。提案した学習フレームワークは,既存の方法と比較して学習プロセスを加速する大きさの二桁まで複雑な模擬ロボット作業と実際のロボット実験を示し,高品質政策を学習した。Copyright 2017 Elsevier B.V., Amsterdam. All rights reserved. Translated from English into Japanese by JST.【Powered by NICT】

, , , , , , , , , , ,
, , , 【Automatic Indexing@JST】

著者キーワード (9件)： , , , , , , , ,

人工知能 , ロボットの運動・制御

, , , , , ,

前のページに戻る