均質Markovゲームのための通信効率の良いアクター-クリティック法【JST・京大機械翻訳】

Chen Dingyang; Li Yile; Zhang Qi

プレプリント

J-GLOBAL ID：202202216191942040 整理番号：22P0292034

均質Markovゲームのための通信効率の良いアクター-クリティック法【JST・京大機械翻訳】

Communication-Efficient Actor-Critic Methods for Homogeneous Markov Games

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (3件)： , ,
資料名：
発行年： 2022年02月18日プレプリントサーバーでの情報更新日： 2022年03月31日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

協調マルチエージェント強化学習(MARL)における最近の成功は集中訓練と政策共有に依存する。集中訓練は,非定常MARLの問題を除外するが,大きな通信コストを誘導し,そして,政策共有は,あるタスクにおける効率的学習に経験的に重要であるが,理論的正当化を欠いている。本論文では,エージェントが,ポリシー共有が最適でないというような均一性の特定の形式を示す,協調Markovゲームのサブクラスを形式的に特徴付ける。これにより,コンセンサス更新が,収束を保証しながらアクターと批判の両方に適用される,最初のコンセンサスベース分散アクター-批評法を開発することができた。また,訓練中の通信コストを低減するため,集中訓練と同程度のポリシーを生成する,分散アクター-批評法に基づく実用的アルゴリズムも開発した。【JST・京大機械翻訳】

, , , , , , ,
, , , , 【Automatic Indexing@JST】

人工知能

, ,

前のページに戻る