混合連続/離散変数によるMDPのポリシー学習:Markovジャンプシステムのモデルフリー制御に関する事例研究【JST・京大機械翻訳】

Jansch-Porto Joao Paulo; Hu Bin; Dullerud Geir

プレプリント

J-GLOBAL ID：202202200878643406 整理番号：22P0155498

混合連続/離散変数によるMDPのポリシー学習:Markovジャンプシステムのモデルフリー制御に関する事例研究【JST・京大機械翻訳】

Policy Learning of MDPs with Mixed Continuous/Discrete Variables: A Case Study on Model-Free Control of Markovian Jump Systems

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (3件)： , ,
資料名：
発行年： 2020年06月04日プレプリントサーバーでの情報更新日： 2020年07月14日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

Markovジャンプ線形システム(MJLS)は,多くの制御アプリケーションで生じる動的システムの重要なクラスである。本論文では,混合連続/離散状態変数を持つMarkov決定プロセス(MDP)のポリシーベース強化学習のための新しいベンチマークとして未知(離散時間)MJLSを制御する問題を紹介した。伝統的な線形二次レギュレータ(LQR)と比較して,提案問題は,特別なハイブリッドMDP(混合連続と離散変数を有する)をもたらし,システムダイナミックスのモードを支配する根底にあるMarkovジャンプパラメータの出現により,重要な新しい課題を提起する。特に,MJLSの状態はMarkov連鎖を形成しないので,1つは連続状態変数のみを持つMDPとしてMJLS制御問題を研究できない。しかし,混合連続/離散状態空間を持つMDPを得るためには,状態とジャンプパラメータを増大させることができる。制御理論がそのようなハイブリッドMDPの政策パラメータ化に光を投げかける方法を論じた。次に,システムダイナミックスまたはスイッチングパラメータの遷移確率を同定することなく,MJLSに対する最適状態フィードバック制御ポリシーを直接学習するために,広く用いられている自然政策勾配法を改良した。異なるMJLS事例で(データ駆動)自然政策勾配法を実行した。シミュレーション結果は,自然勾配法が未知動力学でMJLSのための最適制御装置を効率的に学習できることを示唆した。【JST・京大機械翻訳】

, , , , , , , , , , , , ,
, 【Automatic Indexing@JST】

システム設計・解析

, , , ,

前のページに戻る