プレプリント
J-GLOBAL ID:202202210142792116   整理番号:22P0292746

MCMARL:マルチエージェント強化学習のためのカテゴリー分布の混合物による価値関数のパラメータ化【JST・京大機械翻訳】

MCMARL: Parameterizing Value Function via Mixture of Categorical Distributions for Multi-Agent Reinforcement Learning
著者 (7件):
資料名:
発行年: 2022年02月21日  プレプリントサーバーでの情報更新日: 2022年05月20日
JST資料番号: O7000B  資料種別: プレプリント
記事区分: プレプリント  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
協調マルチエージェントタスクにおいて,エージェントのチームは,チーム報酬を受け,次の状態を観察することによって,行動を取り入れることによって,環境と共同で相互作用する。相互作用の間,環境および報酬の不確実性は,長期利益における確率を必然的に誘発し,そして,ランダム性は,エージェント数の増加によって悪化した。しかしながら,そのようなランダム性は,既存の価値ベースのマルチエージェント強化学習(MARL)法の大部分によって無視され,それは,個々のエージェントとチームの両方に対するQ値の期待値だけをモデル化する。長期収益の期待利用と比較して,分布を通して収益を推定することによって,確率を直接モデル化することが望ましい。この動機により,本研究は,MARLのためのカテゴリー分布によるパラメータ化価値関数,即ち,分布的展望から,新しい価値ベースのMARLフレームワークを提案した。具体的には,個別Q値と大域的Q値をカテゴリー分布でモデル化した。カテゴリー分布を統合するために,著者らは,分布に関する5つの基本的操作を定義して,それは,期待値関数因数分解法(例えば,VDNとQMIX)のMCMARL変異体への一般化を可能にした。さらに,このMCMARLフレームワークは,分散の期待値に関して,Dis属性-Individual-Global-Max(DIGM)原理を満足し,それは,グローバルQ値および個々のQ値における関節と個々の greedy欲行動選択の間の一貫性を保証した。経験的に,確率的行列ゲームとStarCraft IIマイクロ管理タスクの挑戦的なセットの両方に対するMCMARLを評価し,このフレームワークの有効性を示した。【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (1件):
分類
JSTが定めた文献の分類名称とコードです
人工知能 

前のページに戻る