Markovおよびi.i.d.設定のための適応KL-UCBベースバンディットアルゴリズム【JST・京大機械翻訳】

Roy Arghyadip; Shakkottai Sanjay; Srikant R.

プレプリント

J-GLOBAL ID：202202219425136581 整理番号：21P0048770

Markovおよびi.i.d.設定のための適応KL-UCBベースバンディットアルゴリズム【JST・京大機械翻訳】

Adaptive KL-UCB based Bandit Algorithms for Markovian and i.i.d. Settings

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (3件)： , ,
資料名：
発行年： 2020年09月14日プレプリントサーバーでの情報更新日： 2022年10月08日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

マルチアームバンド(MAB)問題のレグレットベースの定式化において,希少例を除いて,文献の多くは,i.i.d.報酬を有するアームに焦点を合わせている。本論文では,各アームの報酬が単一パラメータ指数ファミリーに属することができないMarkov連鎖を形成するMAB問題に対するレグレット保証を得る問題を考察した。このような問題における対数的レグレットを達成するためには,標準Kullback-Leibler Bound Confidence Bound(KL-UCB)の変動がジョブである。しかし,そのような解析から得られた定数は以下の理由で劣っている:即ち,報酬はMarkov報酬の特殊ケースであり,基礎となるモデルが真にMarkovまたはi.i.dであるかどうかに無関係に働くアルゴリズムを設計することは難しい。この問題を克服するために,著者らは,各アームからの報酬が,全変動距離ベース試験を用いて,真のMarkovまたはi.i.d.であるかどうかを同定する新しいアルゴリズムを導入した。次に,このアルゴリズムは,アーム報酬がMarkovianであると判断するとき,標準KL-UCBをKL-UCBの特殊バージョンに切り替えるので,i.i.d.とMarkovの設定の両方に対する低いレグレットをもたらす。【JST・京大機械翻訳】

, , , , , ,
, , 【Automatic Indexing@JST】

人工知能 , 無線通信一般 , ゲーム理論 , その他のオペレーションズリサーチの手法 , 数値計算

前のページに戻る