非有界状態空間による安定な強化学習【JST・京大機械翻訳】

Shah Devavrat; Xie Qiaomin; Xu Zhi

プレプリント

J-GLOBAL ID：202202218551363295 整理番号：22P0156423

非有界状態空間による安定な強化学習【JST・京大機械翻訳】

Stable Reinforcement Learning with Unbounded State Space

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (3件)： , ,
資料名：
発行年： 2020年06月08日プレプリントサーバーでの情報更新日： 2020年06月08日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

待ち行列ネットワークにおけるスケジューリングの古典的問題によって動機づけられた非有界状態空間による強化学習(RL)の問題を考察した。有限,有界またはコンパクトな状態空間のために設計された誤差メトリックと同様に従来のポリシーは,無限状態空間に対して任意の有意義な性能保証(例えばl_∞誤差)を提供するために無限のサンプルを必要とする。すなわち,性能計量の新しい概念が必要である。本研究の主な貢献として,待ち行列システムおよび制御理論における文献によって触発され,著者らは,「良さ」の概念として安定性を提案する:政策下の状態動特性は,高い確率を有する有界領域に留まるべきである。概念の証明として,Sparse-SamplingベースモンテカルロOracleを用いたRLポリシーを提案し,最適ポリシーの下でのシステムダイナミックスがLyapunov関数に関する限り,安定性特性を満足することを主張した。Lyapunov関数の存在の仮定は,任意のMarkov連鎖の正の再帰性または安定性特性と同等であり,すなわち,システムを安定化できる任意の政策があるならば,Lyapunov関数を持たなければならない。そして,著者らの政策は,特定のLyapunov関数の知識を利用しなかった。提案手法を効率よく行うために,改良,サンプル効率の良いSparse-SamplingベースのモンテカルロOracleを,それ自身の権利で興味深いLipschitz値関数で提供した。さらに,注意深く構築した統計的検定に基づいて,アルゴリズムの適応バージョンを設計し,それは自動的に正しい同調パラメータを見つける。【JST・京大機械翻訳】

, , , , , , , , , , , ,
, , , 【Automatic Indexing@JST】

システム設計・解析 , 人工知能

前のページに戻る