不完全情報拡張形式ゲームにおける一般化Bandit Regret最小化フレームワーク【JST・京大機械翻訳】

Meng Linjian; Gao Yang

プレプリント

J-GLOBAL ID：202202205843871939 整理番号：22P0302570

不完全情報拡張形式ゲームにおける一般化Bandit Regret最小化フレームワーク【JST・京大機械翻訳】

Generalized Bandit Regret Minimizer Framework in Imperfect Information Extensive-Form Game

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (2件)： ,
資料名：
発行年： 2022年03月11日プレプリントサーバーでの情報更新日： 2023年08月18日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

Regret最小化法は,2層ゼロ和不完全情報拡張型ゲーム(IIEG)における近似Nash均衡(NE)の学習のための強力なツールである。IIEGのダイナミクスを知らない対話型帯域フィードバック設定における問題を考察した。一般に,相互作用軌跡と到達端末ノード値v(z ̄t)のみを明らかにした。NEを学習するためには,V(z ̄t)による完全フィードバック損失勾配l ̄tを推定し,regretを最小化するために,レグレット最小化器が必要である。本論文では,この学習設定のための一般化フレームワークを提案した。それは,バンドレット最小化方法の設計およびモジュール解析のための理論的フレームワークを提示した。このフレームワークの特殊ケースとして,最も最近のバンドレグレット最小化法が解析できることを示した。この枠組みに従って,近似NEを学習するための新しい方法SIX-OMDについて述べた。それはモデルフリーであり,O(√XB/T+√YC/T)の次数からO(sqrt{M_{X}/T}+sqrt{M_{Y}/T}への最良の既存の収束速度を非常に改善した。さらに,SIX-OMDは,サンプリング軌道に沿ってのみ,現在の戦略と平均戦略更新を行う必要があるので,計算上効率的である。【JST・京大機械翻訳】

, , , , , , , , , ,
, , , , 【Automatic Indexing@JST】

ゲーム理論

, , , , , ,

前のページに戻る