抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
協調マルチエージェントタスクにおいて,エージェントのチームは,チーム報酬を受け,次の状態を観察することによって,行動を取り入れることによって,環境と共同で相互作用する。相互作用の間,環境および報酬の不確実性は,長期利益における確率を必然的に誘発し,そして,ランダム性は,エージェント数の増加によって悪化した。しかしながら,そのようなランダム性は,既存の価値ベースのマルチエージェント強化学習(MARL)法の大部分によって無視され,それは,個々のエージェントとチームの両方に対するQ値の期待値だけをモデル化する。長期収益の期待利用と比較して,分布を通して収益を推定することによって,確率を直接モデル化することが望ましい。この動機により,本研究は,MARLのためのカテゴリー分布によるパラメータ化価値関数,即ち,分布的展望から,新しい価値ベースのMARLフレームワークを提案した。具体的には,個別Q値と大域的Q値をカテゴリー分布でモデル化した。カテゴリー分布を統合するために,著者らは,分布に関する5つの基本的操作を定義して,それは,期待値関数因数分解法(例えば,VDNとQMIX)のMCMARL変異体への一般化を可能にした。さらに,このMCMARLフレームワークは,分散の期待値に関して,Dis属性-Individual-Global-Max(DIGM)原理を満足し,それは,グローバルQ値および個々のQ値における関節と個々の greedy欲行動選択の間の一貫性を保証した。経験的に,確率的行列ゲームとStarCraft IIマイクロ管理タスクの挑戦的なセットの両方に対するMCMARLを評価し,このフレームワークの有効性を示した。【JST・京大機械翻訳】