抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
マルチアームバンド(MAB)問題のレグレットベースの定式化において,希少例を除いて,文献の多くは,i.i.d.報酬を有するアームに焦点を合わせている。本論文では,各アームの報酬が単一パラメータ指数ファミリーに属することができないMarkov連鎖を形成するMAB問題に対するレグレット保証を得る問題を考察した。このような問題における対数的レグレットを達成するためには,標準Kullback-Leibler Bound Confidence Bound(KL-UCB)の変動がジョブである。しかし,そのような解析から得られた定数は以下の理由で劣っている:即ち,報酬はMarkov報酬の特殊ケースであり,基礎となるモデルが真にMarkovまたはi.i.dであるかどうかに無関係に働くアルゴリズムを設計することは難しい。この問題を克服するために,著者らは,各アームからの報酬が,全変動距離ベース試験を用いて,真のMarkovまたはi.i.d.であるかどうかを同定する新しいアルゴリズムを導入した。次に,このアルゴリズムは,アーム報酬がMarkovianであると判断するとき,標準KL-UCBをKL-UCBの特殊バージョンに切り替えるので,i.i.d.とMarkovの設定の両方に対する低いレグレットをもたらす。【JST・京大機械翻訳】