抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
Regret最小化法は,2層ゼロ和不完全情報拡張型ゲーム(IIEG)における近似Nash均衡(NE)の学習のための強力なツールである。IIEGのダイナミクスを知らない対話型帯域フィードバック設定における問題を考察した。一般に,相互作用軌跡と到達端末ノード値v(z ̄t)のみを明らかにした。NEを学習するためには,V(z ̄t)による完全フィードバック損失勾配l ̄tを推定し,regretを最小化するために,レグレット最小化器が必要である。本論文では,この学習設定のための一般化フレームワークを提案した。それは,バンドレット最小化方法の設計およびモジュール解析のための理論的フレームワークを提示した。このフレームワークの特殊ケースとして,最も最近のバンドレグレット最小化法が解析できることを示した。この枠組みに従って,近似NEを学習するための新しい方法SIX-OMDについて述べた。それはモデルフリーであり,O(√XB/T+√YC/T)の次数からO(sqrt{M_{X}/T}+sqrt{M_{Y}/T}への最良の既存の収束速度を非常に改善した。さらに,SIX-OMDは,サンプリング軌道に沿ってのみ,現在の戦略と平均戦略更新を行う必要があるので,計算上効率的である。【JST・京大機械翻訳】