MCMARL:マルチエージェント強化学習のためのカテゴリー分布の混合物による価値関数のパラメータ化【JST・京大機械翻訳】

Zhao Jian; Yang Mingyu; Zhao Youpeng; Hu Xunhan; Zhou Wengang; Zhu Jiangcheng; Li Houqiang

プレプリント

J-GLOBAL ID：202202210142792116 整理番号：22P0292746

MCMARL:マルチエージェント強化学習のためのカテゴリー分布の混合物による価値関数のパラメータ化【JST・京大機械翻訳】

MCMARL: Parameterizing Value Function via Mixture of Categorical Distributions for Multi-Agent Reinforcement Learning

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (7件)： , , , , , ,
資料名：
発行年： 2022年02月21日プレプリントサーバーでの情報更新日： 2022年05月20日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

協調マルチエージェントタスクにおいて,エージェントのチームは,チーム報酬を受け,次の状態を観察することによって,行動を取り入れることによって,環境と共同で相互作用する。相互作用の間,環境および報酬の不確実性は,長期利益における確率を必然的に誘発し,そして,ランダム性は,エージェント数の増加によって悪化した。しかしながら,そのようなランダム性は,既存の価値ベースのマルチエージェント強化学習(MARL)法の大部分によって無視され,それは,個々のエージェントとチームの両方に対するQ値の期待値だけをモデル化する。長期収益の期待利用と比較して,分布を通して収益を推定することによって,確率を直接モデル化することが望ましい。この動機により,本研究は,MARLのためのカテゴリー分布によるパラメータ化価値関数,即ち,分布的展望から,新しい価値ベースのMARLフレームワークを提案した。具体的には,個別Q値と大域的Q値をカテゴリー分布でモデル化した。カテゴリー分布を統合するために,著者らは,分布に関する5つの基本的操作を定義して,それは,期待値関数因数分解法(例えば,VDNとQMIX)のMCMARL変異体への一般化を可能にした。さらに,このMCMARLフレームワークは,分散の期待値に関して,Dis属性-Individual-Global-Max(DIGM)原理を満足し,それは,グローバルQ値および個々のQ値における関節と個々の greedy欲行動選択の間の一貫性を保証した。経験的に,確率的行列ゲームとStarCraft IIマイクロ管理タスクの挑戦的なセットの両方に対するMCMARLを評価し,このフレームワークの有効性を示した。【JST・京大機械翻訳】

, , , , , , , , , , ,
, , , 【Automatic Indexing@JST】

人工知能

, , , , , ,

前のページに戻る