抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
価値関数分解は,協調ゲームにおけるマルチエージェント強化学習(MARL)のスケールアップのための親指の人気のある規則になっている。このような分解則に対して,個々の大域的最大(IGM)原理の仮定をしなければならない。即ち,各エージェント当りの分解値関数上の局所最大値は,関節値関数で大域的最大値に達する必要がある。しかし,この原理は,一般的には保持されていない。結果として,値分解アルゴリズムの適用性は隠され,それらの対応する収束特性は未知のままである。本論文では,これらの質問に答える最初の努力を行った。特に,著者らは,価値分解法がそれらの妥当性を見つける協同ゲームの集合を導入し,それは分解可能なゲームとして参照される。分解可能なゲームにおいて,著者らは,マルチエージェント適合Q-Iterationアルゴリズム(MA-FQI)を適用することが,最適Q関数に導くことを,理論的に証明した。非分解ゲームにおいて,MA-FQIによる推定Q関数は,Q関数が各反復で分解可能関数空間に投影するという状況の下で,まだ最適に収束できる。両設定において,実用的深層ニューラルネットワークによる値関数表現を考察し,それらの対応する収束速度を導いた。要約するために,我々の結果は,初めて,値分解アルゴリズムが収束し,なぜそれらがうまく機能するかに関して,MARL実務者に対する理論的洞察を提供した。【JST・京大機械翻訳】