プレプリント
J-GLOBAL ID:202202205843871939   整理番号:22P0302570

不完全情報拡張形式ゲームにおける一般化Bandit Regret最小化フレームワーク【JST・京大機械翻訳】

Generalized Bandit Regret Minimizer Framework in Imperfect Information Extensive-Form Game
著者 (2件):
資料名:
発行年: 2022年03月11日  プレプリントサーバーでの情報更新日: 2023年08月18日
JST資料番号: O7000B  資料種別: プレプリント
記事区分: プレプリント  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
Regret最小化法は,2層ゼロ和不完全情報拡張型ゲーム(IIEG)における近似Nash均衡(NE)の学習のための強力なツールである。IIEGのダイナミクスを知らない対話型帯域フィードバック設定における問題を考察した。一般に,相互作用軌跡と到達端末ノード値v(z ̄t)のみを明らかにした。NEを学習するためには,V(z ̄t)による完全フィードバック損失勾配l ̄tを推定し,regretを最小化するために,レグレット最小化器が必要である。本論文では,この学習設定のための一般化フレームワークを提案した。それは,バンドレット最小化方法の設計およびモジュール解析のための理論的フレームワークを提示した。このフレームワークの特殊ケースとして,最も最近のバンドレグレット最小化法が解析できることを示した。この枠組みに従って,近似NEを学習するための新しい方法SIX-OMDについて述べた。それはモデルフリーであり,O(√XB/T+√YC/T)の次数からO(sqrt{M_{X}/T}+sqrt{M_{Y}/T}への最良の既存の収束速度を非常に改善した。さらに,SIX-OMDは,サンプリング軌道に沿ってのみ,現在の戦略と平均戦略更新を行う必要があるので,計算上効率的である。【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (1件):
分類
JSTが定めた文献の分類名称とコードです
ゲーム理論 

前のページに戻る