抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
Markovジャンプ線形システム(MJLS)は,多くの制御アプリケーションで生じる動的システムの重要なクラスである。本論文では,混合連続/離散状態変数を持つMarkov決定プロセス(MDP)のポリシーベース強化学習のための新しいベンチマークとして未知(離散時間)MJLSを制御する問題を紹介した。伝統的な線形二次レギュレータ(LQR)と比較して,提案問題は,特別なハイブリッドMDP(混合連続と離散変数を有する)をもたらし,システムダイナミックスのモードを支配する根底にあるMarkovジャンプパラメータの出現により,重要な新しい課題を提起する。特に,MJLSの状態はMarkov連鎖を形成しないので,1つは連続状態変数のみを持つMDPとしてMJLS制御問題を研究できない。しかし,混合連続/離散状態空間を持つMDPを得るためには,状態とジャンプパラメータを増大させることができる。制御理論がそのようなハイブリッドMDPの政策パラメータ化に光を投げかける方法を論じた。次に,システムダイナミックスまたはスイッチングパラメータの遷移確率を同定することなく,MJLSに対する最適状態フィードバック制御ポリシーを直接学習するために,広く用いられている自然政策勾配法を改良した。異なるMJLS事例で(データ駆動)自然政策勾配法を実行した。シミュレーション結果は,自然勾配法が未知動力学でMJLSのための最適制御装置を効率的に学習できることを示唆した。【JST・京大機械翻訳】