文献
J-GLOBAL ID:201702244811494733   整理番号:17A0966947

シミュレートした人間-ロボット相互作用タスクに適用した能動的探査とパラメータ化された強化学習【Powered by NICT】

Active Exploration and Parameterized Reinforcement Learning Applied to a Simulated Human-Robot Interaction Task
著者 (4件):
資料名:
巻: 2017  号: IRC  ページ: 28-35  発行年: 2017年 
JST資料番号: W2441A  資料種別: 会議録 (C)
記事区分: 原著論文  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
連続作用を用いたオンラインモデルフリー強化学習(RL)法は,ロボットなどの実世界適用を扱う際に重要な役割を果たしている。しかし,非定常環境に直面したとき,これらの方法はほとんど環境の変化に動的に調整かつ自動的にした探索と搾取トレードオフに決定的に頼っている。ここでは,構造化された(パラメタライズされた)連続行動空間におけるRLのための能動的探索アルゴリズムを提案した。提案フレームワークでは離散作用し,その各々が連続変数によるパラメータ化のセットを検討した。離散探索は,逆温度βパラメータを持つBoltzmannソフトマックス関数により制御される。並行して,連続動作パラメータに適用したGauss探査。同時にβを調整するための短期および長期報酬走行平均の変動の間の比較に基づくメタ学習アルゴリズムと連続動作パラメータを得たGauss分布の幅を適用した。最初このアルゴリズムは,非定常多腕バンディットパラダイムにおける最先端技術レベルの性能に達することを示し,一方,連続作用と多段階タスクに一般化可能である。をシミュレートした人間-ロボットインタラクションタスクに適用し,能動的探索なしKalman Q学習アルゴリズムによる測定不確実性変化に基づく能動的探索を連続パラメータ化されたRLより優れていることを示した。Copyright 2017 The Institute of Electrical and Electronics Engineers, Inc. All Rights reserved. Translated from English into Japanese by JST【Powered by NICT】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (2件):
分類
JSTが定めた文献の分類名称とコードです
人工知能  ,  ロボットの運動・制御 
タイトルに関連する用語 (5件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る