抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
深層強化学習(DRL)は,ロボットを複雑なタスクを行うための教育ロボットに対する一つの有望なアプローチである。保存経験データを直接再利用する方法は,時変環境によるロボット問題における環境の変化を追跡することができないので,オンラインDRLが必要である。適格性トレース法は,DRLよりも線形回帰者による従来の強化学習におけるサンプル効率を改善するためのオンライン学習技術としてよく知られている。深層ニューラルネットワークのパラメータ間の依存性が適格性トレースを破壊し,なぜそれらがDRLと統合されないかである。適格性トレースとして勾配を蓄積するよりむしろ最も影響力のあるものに勾配を置き換えることは,この問題を緩和することができるが,置換操作は以前の経験の再利用の数を減らす。これらの問題に取り組むために,本研究では,高いサンプル効率を維持しながらDRLでも使用できる新しい適格性トレース法を提案した。累積勾配が最新のパラメータを用いて計算したものと異なるとき,提案方法は,適格性トレースを適応的に減衰するために,過去と最新のパラメータの間の発散を考慮した。過去と最新のパラメータによって計算された出力の間のBregman発散は,過去と最新のパラメータの間の発散の実行可能な計算コストのために活用される。さらに,多重時間スケールトレースによる一般化法を初めて設計した。この設計は,最も影響力のある適応的に蓄積した(崩壊)適格性トレースの置換を可能にする。提案方法は,動的ロボットシミュレータに関するベンチマークタスクに関する学習された政策によって,学習速度とタスク品質に関して従来の方法を凌駕した。実ロボット実証は,オンラインDRLの重要性と,変化する環境に対する提案方法の適応性を確認した。Copyright 2022 Elsevier B.V., Amsterdam. All rights reserved. Translated from English into Japanese by JST.【JST・京大機械翻訳】