効率的な政策空間応答オラクル【JST・京大機械翻訳】

Zhou Ming; Chen Jingxiao; Wen Ying; Zhang Weinan; Yang Yaodong; Yu Yong; Wang Jun

プレプリント

J-GLOBAL ID：202202208356400709 整理番号：22P0283245

効率的な政策空間応答オラクル【JST・京大機械翻訳】

Efficient Policy Space Response Oracles

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (7件)： , , , , , ,
資料名：
発行年： 2022年01月28日プレプリントサーバーでの情報更新日： 2022年06月01日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

政策空間応答Oracle法(PSRO)は,2層ゼロ和ゲームにおけるNash均衡を学習する一般的解決策を提供するが,2つの欠点に悩まされる。1)シミュレーションによる一貫したメタゲーム評価の必要性による計算非効率性,2)あらゆる時代における固定メタ戦略に対する最良の応答の発見による探索非効率性。本研究では,上記2段階の効率を大きく改善する効率的なPSRO(EPSRO)を提案した。開発の中心は,無制限(URR)ゲームにおける非レグレット最適化の新しく導入したサブルーチンである。各時代のURRを解くことによって,1つは現在のゲームを評価でき,メタゲームシミュレーションを必要とせずに1つのフォワードパスで最良の応答を計算することができる。理論的には,EPSROの解法手順が,既存のPSRO方法のどれも無い,利用可能性に関する単調な改良を提供することを証明した。さらに,著者らは,非レグレット最適化がO(sqrt{Tlog{[(k ̄2+k)/2]})のレグレット境界を持つことを証明し,ここでkは制約された政策集合のサイズである。最も重要なことに,EPSROの望ましい特性は,並列化可能であり,これは行動多様性を誘導する政策空間における高効率探査を可能にすることである。3クラスのゲームでEPSROを試験し,KuhnとLeduc Pokerゲームに関する既存のPSRO法と同じ利用性を維持しながら,壁時間と10xデータ効率における50x高速化を報告した。【JST・京大機械翻訳】

, , , , ,
, , , , , 【Automatic Indexing@JST】

ゲーム理論

, ,

前のページに戻る