抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
本論文では,パラメータ不確定性をもつ平均報酬確率制御問題のクラスにThompsonサンプリングを適用した。より詳しくいえば,ここでは,報酬と状態遷移分布の両方は有限空間における値をとる未知パラメータによってパラメータ化される無限期間における平均報酬確率制御問題を研究した。本論文の主な結果は,ThompsonサンプリングはO(T~ 1)の後悔当たりの最悪ケースの平均を達成することを示す証明であり,漸近的に最適である。Copyright 2018 The Institute of Electrical and Electronics Engineers, Inc. All Rights reserved. Translated from English into Japanese by JST【Powered by NICT】