抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
待ち行列ネットワークにおけるスケジューリングの古典的問題によって動機づけられた非有界状態空間による強化学習(RL)の問題を考察した。有限,有界またはコンパクトな状態空間のために設計された誤差メトリックと同様に従来のポリシーは,無限状態空間に対して任意の有意義な性能保証(例えばl_∞誤差)を提供するために無限のサンプルを必要とする。すなわち,性能計量の新しい概念が必要である。本研究の主な貢献として,待ち行列システムおよび制御理論における文献によって触発され,著者らは,「良さ」の概念として安定性を提案する:政策下の状態動特性は,高い確率を有する有界領域に留まるべきである。概念の証明として,Sparse-SamplingベースモンテカルロOracleを用いたRLポリシーを提案し,最適ポリシーの下でのシステムダイナミックスがLyapunov関数に関する限り,安定性特性を満足することを主張した。Lyapunov関数の存在の仮定は,任意のMarkov連鎖の正の再帰性または安定性特性と同等であり,すなわち,システムを安定化できる任意の政策があるならば,Lyapunov関数を持たなければならない。そして,著者らの政策は,特定のLyapunov関数の知識を利用しなかった。提案手法を効率よく行うために,改良,サンプル効率の良いSparse-SamplingベースのモンテカルロOracleを,それ自身の権利で興味深いLipschitz値関数で提供した。さらに,注意深く構築した統計的検定に基づいて,アルゴリズムの適応バージョンを設計し,それは自動的に正しい同調パラメータを見つける。【JST・京大機械翻訳】