非定常性の下での分散PPOのための信頼領域限界【JST・京大機械翻訳】

Sun Mingfei; Devlin Sam; Beck Jacob; Hofmann Katja; Whiteson Shimon

プレプリント

J-GLOBAL ID：202202212459336976 整理番号：22P0282694

非定常性の下での分散PPOのための信頼領域限界【JST・京大機械翻訳】

Trust Region Bounds for Decentralized PPO Under Non-stationarity

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (5件)： , , , ,
資料名：
発行年： 2022年01月31日プレプリントサーバーでの情報更新日： 2023年02月15日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

遷移動力学が非定常である場合でも,協調マルチエージェント強化学習(MARL)における分散ポリシーを最適化するための信頼領域限界を示した。この新しい解析は,MARLに対する2つの最近のアクター-批評法の強い性能の理論的理解を提供し,両者は,独立比,即ち,各エージェントの政策に対して別々に計算確率比に依存する。著者らは,独立比を引き起こす非定常性にもかかわらず,単調な改善保証が,すべての分散政策に対する信頼領域制約を強制する結果として,まだ発生することを示した。また,この信頼領域制約を,訓練におけるエージェントの数に基づく独立比を結合することによって,原理的に効果的に実行することができ,近位比クリッピングの理論的基礎を提供した。最後に,著者らの経験的結果は,IPPOとMAPPOの強い性能が,集中訓練におけるクリッピングを通してそのような信頼領域制約を強制する直接的結果であり,著者らの理論解析によって予測されたように,エージェントの数に関してハイパーパラメータを調整するという仮説を支持した。【JST・京大機械翻訳】

, , , , , ,
, , , , , 【Automatic Indexing@JST】

人工知能

, , ,

前のページに戻る