オンライン深層強化学習のための適応および多重時間スケール適格性トレース【JST・京大機械翻訳】

Kobayashi Taisuke

文献

J-GLOBAL ID：202202226688050948 整理番号：22A1049659

オンライン深層強化学習のための適応および多重時間スケール適格性トレース【JST・京大機械翻訳】

Adaptive and multiple time-scale eligibility traces for online deep reinforcement learning

出版者サイト複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=22A1049659&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=22A1049659&from=J-GLOBAL&jstjournalNo=C0133C") }}

著者 (1件)：
資料名：
巻： 151 ページ： Null 発行年： 2022年
JST資料番号： C0133C ISSN： 0921-8890 資料種別：逐次刊行物 (A)
記事区分：原著論文発行国：オランダ (NLD) 言語：英語 (EN)

深層強化学習(DRL)は,ロボットを複雑なタスクを行うための教育ロボットに対する一つの有望なアプローチである。保存経験データを直接再利用する方法は,時変環境によるロボット問題における環境の変化を追跡することができないので,オンラインDRLが必要である。適格性トレース法は,DRLよりも線形回帰者による従来の強化学習におけるサンプル効率を改善するためのオンライン学習技術としてよく知られている。深層ニューラルネットワークのパラメータ間の依存性が適格性トレースを破壊し,なぜそれらがDRLと統合されないかである。適格性トレースとして勾配を蓄積するよりむしろ最も影響力のあるものに勾配を置き換えることは,この問題を緩和することができるが,置換操作は以前の経験の再利用の数を減らす。これらの問題に取り組むために,本研究では,高いサンプル効率を維持しながらDRLでも使用できる新しい適格性トレース法を提案した。累積勾配が最新のパラメータを用いて計算したものと異なるとき,提案方法は,適格性トレースを適応的に減衰するために,過去と最新のパラメータの間の発散を考慮した。過去と最新のパラメータによって計算された出力の間のBregman発散は,過去と最新のパラメータの間の発散の実行可能な計算コストのために活用される。さらに,多重時間スケールトレースによる一般化法を初めて設計した。この設計は,最も影響力のある適応的に蓄積した(崩壊)適格性トレースの置換を可能にする。提案方法は,動的ロボットシミュレータに関するベンチマークタスクに関する学習された政策によって,学習速度とタスク品質に関して従来の方法を凌駕した。実ロボット実証は,オンラインDRLの重要性と,変化する環境に対する提案方法の適応性を確認した。Copyright 2022 Elsevier B.V., Amsterdam. All rights reserved. Translated from English into Japanese by JST.【JST・京大機械翻訳】

, , , , , , , , , ,
, , , , , , , 【Automatic Indexing@JST】

著者キーワード (3件)： , ,

ロボットの運動・制御 , 人工知能

, , , , ,

前のページに戻る