文献
J-GLOBAL ID:201802214820778191   整理番号:18A2014003

カーネル動的ポリシープログラミング:高次元状態を持つロボットシステムへの適用可能な強化学習

Kernel dynamic policy programming: Applicable reinforcement learning to robot systems with high dimensional states
著者 (3件):
資料名:
巻: 94  ページ: 13-23  発行年: 2017年10月 
JST資料番号: T0698A  ISSN: 0893-6080  資料種別: 逐次刊行物 (A)
記事区分: 原著論文  発行国: イギリス (GBR)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
ここでは,脆弱性と扱いにくい計算複雑性の問題を扱う高次元状態を含むMarkov決定プロセスにおけるモデルフリー強化学習のための新しい価値関数アプローチを提案し,従って,高次元システムに適用可能な強化学習アルゴリズムに基づく価値関数アプローチをレンダリングした。著者らの新しいアルゴリズム,カーネル動的極性プログラミング(KDPP)は,現在と更新された政策の間のKullback-Leibler発散に従って,価値関数を滑らかに更新する。この方法で学習を安定化することは,カーネルトリックの値関数近似への応用を可能にし,高次元状態空間における学習のための計算要件を大幅に低減する。他のカーネルトリックベースの値関数アプローチに対するKDPPの性能を最初にシミュレーションしたn DOFマニピュレータに到達するタスクにおいて研究し,KDPPのみがn=40で実行可能なポリシーを効率的に学習した。実世界の高次元ロボットシステムへの応用として,KDPPは,触覚センサを用いて,Pneumatic人工筋肉(PAM)駆動ロボットハンドを介して,ボトルキャップを非スクリーイングするタスクを成功裏に学習した。32次元の状態空間を有するシステムは,限られたサンプルと通常のコンピューティング資源を与えられた。Copyright 2018 Elsevier B.V., Amsterdam. All rights reserved. Translated from English into Japanese by JST.
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

分類 (4件):
分類
JSTが定めた文献の分類名称とコードです
ニューロコンピュータ  ,  ロボットの運動・制御  ,  人工知能  ,  ロボットの設計・製造・構造要素 
タイトルに関連する用語 (5件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る