プレプリント
J-GLOBAL ID:202202218551363295   整理番号:22P0156423

非有界状態空間による安定な強化学習【JST・京大機械翻訳】

Stable Reinforcement Learning with Unbounded State Space
著者 (3件):
資料名:
発行年: 2020年06月08日  プレプリントサーバーでの情報更新日: 2020年06月08日
JST資料番号: O7000B  資料種別: プレプリント
記事区分: プレプリント  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
待ち行列ネットワークにおけるスケジューリングの古典的問題によって動機づけられた非有界状態空間による強化学習(RL)の問題を考察した。有限,有界またはコンパクトな状態空間のために設計された誤差メトリックと同様に従来のポリシーは,無限状態空間に対して任意の有意義な性能保証(例えばl_∞誤差)を提供するために無限のサンプルを必要とする。すなわち,性能計量の新しい概念が必要である。本研究の主な貢献として,待ち行列システムおよび制御理論における文献によって触発され,著者らは,「良さ」の概念として安定性を提案する:政策下の状態動特性は,高い確率を有する有界領域に留まるべきである。概念の証明として,Sparse-SamplingベースモンテカルロOracleを用いたRLポリシーを提案し,最適ポリシーの下でのシステムダイナミックスがLyapunov関数に関する限り,安定性特性を満足することを主張した。Lyapunov関数の存在の仮定は,任意のMarkov連鎖の正の再帰性または安定性特性と同等であり,すなわち,システムを安定化できる任意の政策があるならば,Lyapunov関数を持たなければならない。そして,著者らの政策は,特定のLyapunov関数の知識を利用しなかった。提案手法を効率よく行うために,改良,サンプル効率の良いSparse-SamplingベースのモンテカルロOracleを,それ自身の権利で興味深いLipschitz値関数で提供した。さらに,注意深く構築した統計的検定に基づいて,アルゴリズムの適応バージョンを設計し,それは自動的に正しい同調パラメータを見つける。【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (2件):
分類
JSTが定めた文献の分類名称とコードです
システム設計・解析  ,  人工知能 
タイトルに関連する用語 (2件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る