確率制御のためのThompsonサンプリング:有限パラメータ1例【Powered by NICT】

Kim Michael Jong

文献

J-GLOBAL ID：201802270018810273 整理番号：18A0026250

確率制御のためのThompsonサンプリング:有限パラメータ1例【Powered by NICT】

Thompson Sampling for Stochastic Control: The Finite Parameter Case

出版者サイト複写サービスで全文入手
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=18A0026250&from=J-GLOBAL&jstjournalNo=C0223A") }}

著者 (1件)：
資料名：
巻： 62 号： 12 ページ： 6415-6422 発行年： 2017年
JST資料番号： C0223A ISSN： 0018-9286 CODEN： IETAA9 資料種別：逐次刊行物 (A)
記事区分：原著論文発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

本論文では,パラメータ不確定性をもつ平均報酬確率制御問題のクラスにThompsonサンプリングを適用した。より詳しくいえば,ここでは,報酬と状態遷移分布の両方は有限空間における値をとる未知パラメータによってパラメータ化される無限期間における平均報酬確率制御問題を研究した。本論文の主な結果は,ThompsonサンプリングはO(T~ 1)の後悔当たりの最悪ケースの平均を達成することを示す証明であり,漸近的に最適である。Copyright 2018 The Institute of Electrical and Electronics Engineers, Inc. All Rights reserved. Translated from English into Japanese by JST【Powered by NICT】

, 【Automatic Indexing@JST】

システム設計・解析

, ,

前のページに戻る