文献
J-GLOBAL ID:202202226688050948   整理番号:22A1049659

オンライン深層強化学習のための適応および多重時間スケール適格性トレース【JST・京大機械翻訳】

Adaptive and multiple time-scale eligibility traces for online deep reinforcement learning
著者 (1件):
資料名:
巻: 151  ページ: Null  発行年: 2022年 
JST資料番号: C0133C  ISSN: 0921-8890  資料種別: 逐次刊行物 (A)
記事区分: 原著論文  発行国: オランダ (NLD)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
深層強化学習(DRL)は,ロボットを複雑なタスクを行うための教育ロボットに対する一つの有望なアプローチである。保存経験データを直接再利用する方法は,時変環境によるロボット問題における環境の変化を追跡することができないので,オンラインDRLが必要である。適格性トレース法は,DRLよりも線形回帰者による従来の強化学習におけるサンプル効率を改善するためのオンライン学習技術としてよく知られている。深層ニューラルネットワークのパラメータ間の依存性が適格性トレースを破壊し,なぜそれらがDRLと統合されないかである。適格性トレースとして勾配を蓄積するよりむしろ最も影響力のあるものに勾配を置き換えることは,この問題を緩和することができるが,置換操作は以前の経験の再利用の数を減らす。これらの問題に取り組むために,本研究では,高いサンプル効率を維持しながらDRLでも使用できる新しい適格性トレース法を提案した。累積勾配が最新のパラメータを用いて計算したものと異なるとき,提案方法は,適格性トレースを適応的に減衰するために,過去と最新のパラメータの間の発散を考慮した。過去と最新のパラメータによって計算された出力の間のBregman発散は,過去と最新のパラメータの間の発散の実行可能な計算コストのために活用される。さらに,多重時間スケールトレースによる一般化法を初めて設計した。この設計は,最も影響力のある適応的に蓄積した(崩壊)適格性トレースの置換を可能にする。提案方法は,動的ロボットシミュレータに関するベンチマークタスクに関する学習された政策によって,学習速度とタスク品質に関して従来の方法を凌駕した。実ロボット実証は,オンラインDRLの重要性と,変化する環境に対する提案方法の適応性を確認した。Copyright 2022 Elsevier B.V., Amsterdam. All rights reserved. Translated from English into Japanese by JST.【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (2件):
分類
JSTが定めた文献の分類名称とコードです
ロボットの運動・制御  ,  人工知能 

前のページに戻る