深層協調マルチエージェント強化学習における価値分解アルゴリズムの理解【JST・京大機械翻訳】

Dou Zehao; Kuba Jakub Grudzien; Yang Yaodong

プレプリント

J-GLOBAL ID：202202211207057326 整理番号：22P0287480

深層協調マルチエージェント強化学習における価値分解アルゴリズムの理解【JST・京大機械翻訳】

Understanding Value Decomposition Algorithms in Deep Cooperative Multi-Agent Reinforcement Learning

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (3件)： , ,
資料名：
発行年： 2022年02月10日プレプリントサーバーでの情報更新日： 2022年02月15日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

価値関数分解は,協調ゲームにおけるマルチエージェント強化学習(MARL)のスケールアップのための親指の人気のある規則になっている。このような分解則に対して,個々の大域的最大(IGM)原理の仮定をしなければならない。即ち,各エージェント当りの分解値関数上の局所最大値は,関節値関数で大域的最大値に達する必要がある。しかし,この原理は,一般的には保持されていない。結果として,値分解アルゴリズムの適用性は隠され,それらの対応する収束特性は未知のままである。本論文では,これらの質問に答える最初の努力を行った。特に,著者らは,価値分解法がそれらの妥当性を見つける協同ゲームの集合を導入し,それは分解可能なゲームとして参照される。分解可能なゲームにおいて,著者らは,マルチエージェント適合Q-Iterationアルゴリズム(MA-FQI)を適用することが,最適Q関数に導くことを,理論的に証明した。非分解ゲームにおいて,MA-FQIによる推定Q関数は,Q関数が各反復で分解可能関数空間に投影するという状況の下で,まだ最適に収束できる。両設定において,実用的深層ニューラルネットワークによる値関数表現を考察し,それらの対応する収束速度を導いた。要約するために,我々の結果は,初めて,値分解アルゴリズムが収束し,なぜそれらがうまく機能するかに関して,MARL実務者に対する理論的洞察を提供した。【JST・京大機械翻訳】

, , , , , , , , , ,
, , , , 【Automatic Indexing@JST】

ゲーム理論 , 人工知能

, , , , , , ,

前のページに戻る