優先順位付き経験リプレイのための自己適応優先度補正【JST・京大機械翻訳】

Zhang Hongjie; Qu Cheng; Zhang Jindou; Li Jing

文献

J-GLOBAL ID：202102288711355992 整理番号：21A0578719

優先順位付き経験リプレイのための自己適応優先度補正【JST・京大機械翻訳】

Self-Adaptive Priority Correction for Prioritized Experience Replay

出版者サイト複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=21A0578719&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=21A0578719&from=J-GLOBAL&jstjournalNo=U7135A") }}

著者 (4件)： , , ,
資料名：
巻： 10 号： 19 ページ： 6925 発行年： 2020年
JST資料番号： U7135A ISSN： 2076-3417 資料種別：逐次刊行物 (A)
記事区分：原著論文発行国：スイス (CHE) 言語：英語 (EN)

深層強化学習(DRL)は,一般的人工知能のための有望なアプローチである。しかし,ほとんどのDRL法は,データ非効率性の問題に悩まされている。この問題を軽減するために,DeepMindは,優先経験再生(PER)を提案した。PERはデータ利用を改善するが,その経験メモリ(EM)におけるほとんどのサンプルの優先順位は,データの一部の優先順位が更新されるので,Qネットワークパラメータが更新されるので,今までに外れる。その結果,貯蔵と実際の優先度分布の間の差は次第に増加し,それは深いQ学習(DQL)の勾配にバイアスを導入し,DQLを非理想方向に向けて更新する。本研究では,更新偏差を固定するために,重要度-PER(Imp-PER)と名付けた新しい自己適応優先度補正アルゴリズムを提案した。特に,EMにおけるすべてのデータの実時間微分誤差(TD誤差)の合計を予測した。データは,予測和と最新のエージェントによって計算された実際のTD誤差によって評価される重要性重量によって補正される。非有界重要性重みを制御するために,自己適応打切り閾値による切捨て重要度サンプリングを用いた。Double Deep Q-Network and MuJoCoによるAtari 2600のさまざまなゲームに関する実施した実験は,Imp-PERが,計算コストを増加させることなく,離散状態と連続状態タスクに関するデータ利用と最終政策品質を改善することを証明した。Copyright 2021 The Author(s) All rights reserved. Translated from English into Japanese by JST.【JST・京大機械翻訳】

, , , , ,
, , , , , , , 【Automatic Indexing@JST】

著者キーワード (5件)： , , , ,

オペレーティングシステム , 計算機網 , 無線通信一般 , 待ち行列

引用文献 (40件)：

Mnih, V.; Kavukcuoglu, K.; Silver, D.; Rusu, A.A.; Veness, J.; Bellemare, M.G.; Graves, A.; Riedmiller, M.; Fidjeland, A.K.; Ostrovski, G.; et al. Human-level control through deep reinforcement learning. Nature 2015, 518, 529-533.
Wu, H.; Song, S.; You, K.; Wu, C. Depth Control of Model-Free AUVs via Reinforcement Learning. IEEE Trans. Syst. ManCybern. Syst. 2018, 49, 2499-2510.
Moreira, I.; Rivas, J.; Cruz, F.; Dazeley, R.; Ayala, A.; Fernandes, B. Deep Reinforcement Learning with Interactive Feedback in a Human-Robot Environment. Appl. Sci. 2020, 10, 5574.
Gregurić, M.; Vujić, M.; Alexopoulos, C.; Miletić, M. Application of Deep Reinforcement Learning in Traffic Signal Control: An Overview and Impact of Open Traffic Data. Appl. Sci. 2020, 10, 4011.
Silver, D.; Schrittwieser, J.; Simonyan, K.; Antonoglou, I.; Huang, A.; Guez, A.; Hubert, T.; Baker, L.; Lai, M.; Bolton, A.; et al. Mastering the game of Go without human knowledge. Nature 2017, 550, 354-359.

, , ,

前のページに戻る