抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
深層強化学習(DRL)は,一般的人工知能のための有望なアプローチである。しかし,ほとんどのDRL法は,データ非効率性の問題に悩まされている。この問題を軽減するために,DeepMindは,優先経験再生(PER)を提案した。PERはデータ利用を改善するが,その経験メモリ(EM)におけるほとんどのサンプルの優先順位は,データの一部の優先順位が更新されるので,Qネットワークパラメータが更新されるので,今までに外れる。その結果,貯蔵と実際の優先度分布の間の差は次第に増加し,それは深いQ学習(DQL)の勾配にバイアスを導入し,DQLを非理想方向に向けて更新する。本研究では,更新偏差を固定するために,重要度-PER(Imp-PER)と名付けた新しい自己適応優先度補正アルゴリズムを提案した。特に,EMにおけるすべてのデータの実時間微分誤差(TD誤差)の合計を予測した。データは,予測和と最新のエージェントによって計算された実際のTD誤差によって評価される重要性重量によって補正される。非有界重要性重みを制御するために,自己適応打切り閾値による切捨て重要度サンプリングを用いた。Double Deep Q-Network and MuJoCoによるAtari 2600のさまざまなゲームに関する実施した実験は,Imp-PERが,計算コストを増加させることなく,離散状態と連続状態タスクに関するデータ利用と最終政策品質を改善することを証明した。Copyright 2021 The Author(s) All rights reserved. Translated from English into Japanese by JST.【JST・京大機械翻訳】