バランスした優先順位付き経験リプレイ【JST・京大機械翻訳】

Sun Hanbin; Li Ruijia; Yang Hanlin; Zhu William

文献

J-GLOBAL ID：202202248559408390 整理番号：22A1165545

バランスした優先順位付き経験リプレイ【JST・京大機械翻訳】

Balanced Prioritized Experience Replay

出版者サイト複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=22A1165545&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=22A1165545&from=J-GLOBAL&jstjournalNo=W2441A") }}

著者 (4件)： , , ,
資料名：
巻： 2022 号： IWECAI ページ： 200-203 発行年： 2022年
JST資料番号： W2441A 資料種別：会議録 (C)
記事区分：原著論文発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

深層強化学習の重要な技術として,優先経験再生(PER)は過去の経験を通して戦略の学習と更新を支援する。しかし,PERはエージェントによって学習され,再生バッファに保管された歴史的情報が固定され,不変である状況を変えない。反対に,良い戦略を効率的に学習するために,エージェントはしばしば最新の対話型情報を必要とする。本論文では,より頻繁に最近の重要な遷移を再生し,従ってより効率的に学習するために,適切な事前設定経験のために,新しい方法,Balance Preitized Experience Replay(BPER)を提案する。著者らは,TD3-BPERと呼ばれる新しい政策勾配アルゴリズムを生成するために,BPERをTwin Delayed Deep Depective Petective Gradientアルゴリズム(TD3)に組み入れた。実験結果は,TD3-BPERが,半Cheetah,Walker2d,Ant,およびSwimmerのようないくつかの環境において,元のTD3より良い性能を達成できることを示した。Copyright 2022 The Institute of Electrical and Electronics Engineers, Inc. All rights reserved. Translated from English into Japanese by JST.【JST・京大機械翻訳】

図形・画像処理一般

, ,

前のページに戻る