抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
本論文では,強化学習におけるランダム化値関数によるレグレット最小化を研究した。平板有限水平Markov決定プロセスにおいて,著者らは1つの古典的Thompsonサンプリング(TS)様アルゴリズム,ランダム化最小二乗値反復(RLSVI)のクリッピングバリアントを導入した。著者らのO(H ̄2S√AT)高確率最悪ケースレグレット境界は,RLSVIに対する以前の最急最悪ケースレグレット限界を改善し,既存の最先端の最悪ケースTSベースレグレット限界に整合する。【JST・京大機械翻訳】