抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
本論文では,不確かなドリフト動力学を持つシステムのための適応観測ベース効率的な強化学習(RL)アプローチを開発した。新しい同時学習適応拡張オブザーバ(CL-AEO)を最初に設計し,システム状態とパラメータを同時に推定した。このオブザーバは2時間スケール構造を持ち,状態導関数情報を計算する追加の数値技術を必要としない。同時学習(CL)のアイデアは,記録されたデータの利用に活用され,パラメータ推定の収束のための緩和された検証可能な励起条件をもたらす。CL-AEOによって提供される推定状態とパラメータに基づいて,経験ベースのRL方式のシミュレーションを開発し,最適制御政策をオンラインで近似した。厳密な理論解析を与え,システム状態の原点への実用的収束と理想的最適政策に対する開発政策を,励起(PE)条件の持続性なしで達成できることを示した。最後に,開発した方法論の有効性と優位性を比較シミュレーションにより実証した。【JST・京大機械翻訳】