プレプリント
J-GLOBAL ID:202202211207057326   整理番号:22P0287480

深層協調マルチエージェント強化学習における価値分解アルゴリズムの理解【JST・京大機械翻訳】

Understanding Value Decomposition Algorithms in Deep Cooperative Multi-Agent Reinforcement Learning
著者 (3件):
資料名:
発行年: 2022年02月10日  プレプリントサーバーでの情報更新日: 2022年02月15日
JST資料番号: O7000B  資料種別: プレプリント
記事区分: プレプリント  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
価値関数分解は,協調ゲームにおけるマルチエージェント強化学習(MARL)のスケールアップのための親指の人気のある規則になっている。このような分解則に対して,個々の大域的最大(IGM)原理の仮定をしなければならない。即ち,各エージェント当りの分解値関数上の局所最大値は,関節値関数で大域的最大値に達する必要がある。しかし,この原理は,一般的には保持されていない。結果として,値分解アルゴリズムの適用性は隠され,それらの対応する収束特性は未知のままである。本論文では,これらの質問に答える最初の努力を行った。特に,著者らは,価値分解法がそれらの妥当性を見つける協同ゲームの集合を導入し,それは分解可能なゲームとして参照される。分解可能なゲームにおいて,著者らは,マルチエージェント適合Q-Iterationアルゴリズム(MA-FQI)を適用することが,最適Q関数に導くことを,理論的に証明した。非分解ゲームにおいて,MA-FQIによる推定Q関数は,Q関数が各反復で分解可能関数空間に投影するという状況の下で,まだ最適に収束できる。両設定において,実用的深層ニューラルネットワークによる値関数表現を考察し,それらの対応する収束速度を導いた。要約するために,我々の結果は,初めて,値分解アルゴリズムが収束し,なぜそれらがうまく機能するかに関して,MARL実務者に対する理論的洞察を提供した。【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (2件):
分類
JSTが定めた文献の分類名称とコードです
ゲーム理論  ,  人工知能 

前のページに戻る