スパース報酬のマルチエージェント強化学習における優先度付き経験再生の導入

LI Zongyue; 菅原俊治

文献

J-GLOBAL ID：202202270239923341 整理番号：22A1079881

スパース報酬のマルチエージェント強化学習における優先度付き経験再生の導入

Applying prioritized experience replay in multiagent reinforcement learning for sparse reward

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=22A1079881&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=22A1079881&from=J-GLOBAL&jstjournalNo=U2030A") }}

著者 (2件)： ,
資料名：
巻： 121 号： 382(AI2021 12-25) ページ： 65-70 (WEB ONLY) 発行年： 2022年02月21日
JST資料番号： U2030A ISSN： 2432-6380 資料種別：会議録 (C)
記事区分：原著論文発行国：日本 (JPN) 言語：日本語 (JA)

本研究では,スパース報酬のマルチエージェント強化学習問題において,好奇心探索に優先度付き経験再生を統合した手法を提案する.これまでのマルチエージェント強化学習の研究では密な報酬設計に依存した手法が多く提案された.しかし,報酬がスパースな環境においてマルチエージェントの学習はまだ困難である.本研究では,スパース報酬のマルチエージェント協調問題について,既存の好奇心探索をマルチエージェント環境に拡張した手法を二つのスパース報酬設定のタスクで性能を評価する.また,これらの手法をベースに,より効率的な優先度付き経験再生を追加する.提案手法と既存手法との比較実験を行い,既存手法より報酬獲得の効率が高い結果と性能が下がる結果がそれぞれ得られたことを報告し,この結果を検討する.(著者抄録)

, , , , , , , , , , , ,
, , , ,

人工知能

引用文献 (13件)：

Jayesh K Gupta, Maxim Egorov, and Mykel Kochenderfer. Cooperative multi-agent control using deep reinforcement learning. In International Conference on Autonomous Agents and Multiagent Systems, pp. 66-83. Springer, 2017.
宮下裕貴. マルチエージェント協調問題における 2 段階報酬配分法を用いた (深層) 強化学習による協調的行動の発現と解析 (小特集 ai (人工知能)). 清水建設研究報告, Vol. 98, pp. 31-40,2020.
Volodymyr Mnih, Koray Kavukcuoglu, David Silver, Andrei A Rusu, Joel Veness, Marc G Bellemare, Alex Graves, Martin Riedmiller, Andreas K Fidjeland, Georg Ostrovski, et al. Human-level control through deep reinforcement learning. nature, Vol. 518, No. 7540, pp. 529-533, 2015.
Christopher Berner, Greg Brockman, Brooke Chan, Vicki Cheung, Przemys law Debiak, Christy Dennison, David Farhi, Quirin Fischer, Shariq Hashme, Chris Hesse, et al. Dota 2 with large scale deep reinforcement learning. arXiv preprint arXiv:1912.06680, 2019.
Marc Bellemare, Sriram Srinivasan, Georg Ostrovski, Tom Schaul, David Saxton, and Remi Munos. Unifying countbased exploration and intrinsic motivation. Advances in neural information processing systems, Vol. 29, pp. 1471-1479, 2016.

, , , ,

前のページに戻る