プレプリント
J-GLOBAL ID:202202200878643406   整理番号:22P0155498

混合連続/離散変数によるMDPのポリシー学習:Markovジャンプシステムのモデルフリー制御に関する事例研究【JST・京大機械翻訳】

Policy Learning of MDPs with Mixed Continuous/Discrete Variables: A Case Study on Model-Free Control of Markovian Jump Systems
著者 (3件):
資料名:
発行年: 2020年06月04日  プレプリントサーバーでの情報更新日: 2020年07月14日
JST資料番号: O7000B  資料種別: プレプリント
記事区分: プレプリント  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
Markovジャンプ線形システム(MJLS)は,多くの制御アプリケーションで生じる動的システムの重要なクラスである。本論文では,混合連続/離散状態変数を持つMarkov決定プロセス(MDP)のポリシーベース強化学習のための新しいベンチマークとして未知(離散時間)MJLSを制御する問題を紹介した。伝統的な線形二次レギュレータ(LQR)と比較して,提案問題は,特別なハイブリッドMDP(混合連続と離散変数を有する)をもたらし,システムダイナミックスのモードを支配する根底にあるMarkovジャンプパラメータの出現により,重要な新しい課題を提起する。特に,MJLSの状態はMarkov連鎖を形成しないので,1つは連続状態変数のみを持つMDPとしてMJLS制御問題を研究できない。しかし,混合連続/離散状態空間を持つMDPを得るためには,状態とジャンプパラメータを増大させることができる。制御理論がそのようなハイブリッドMDPの政策パラメータ化に光を投げかける方法を論じた。次に,システムダイナミックスまたはスイッチングパラメータの遷移確率を同定することなく,MJLSに対する最適状態フィードバック制御ポリシーを直接学習するために,広く用いられている自然政策勾配法を改良した。異なるMJLS事例で(データ駆動)自然政策勾配法を実行した。シミュレーション結果は,自然勾配法が未知動力学でMJLSのための最適制御装置を効率的に学習できることを示唆した。【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (1件):
分類
JSTが定めた文献の分類名称とコードです
システム設計・解析 
タイトルに関連する用語 (5件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る