プレプリント
J-GLOBAL ID:202202206303249186   整理番号:22P0194902

最大エントロピー最適制御のためのHamilton-Jacobi-Bellman方程式【JST・京大機械翻訳】

Hamilton-Jacobi-Bellman Equations for Maximum Entropy Optimal Control
著者 (2件):
資料名:
発行年: 2020年09月28日  プレプリントサーバーでの情報更新日: 2020年09月28日
JST資料番号: O7000B  資料種別: プレプリント
記事区分: プレプリント  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
最大エントロピー強化学習(RL)法を,一連の挑戦的な逐次意思決定と制御タスクに首尾よく適用した。しかし,既存の技術の大部分は離散時間システムのために設計されている。連続時間システムへの拡張に向けた第一段階として,本論文ではエントロピー正則化による連続時間決定論的最適制御問題を考察した。動的プログラミング原理を適用して,著者らは新しいクラスのHamilton-Jacobi-Bellman(HJB)方程式を導き,最大エントロピー制御問題の最適値関数がHJB方程式のユニークな粘度解に対応することを証明した。最大エントロピー定式化は,粘度溶液の規則性を強化し,エントロピー正則化の影響が減少すると漸近的に整合することを示した。HJB方程式の顕著な特徴は,計算の扱いやすさである。一般化Hopf-Lax式を用いて,ハミルトニアンを数値最適化する必要なしに,扱いやすい格子フリー方法でHJB方程式を解いた。さらに,最適制御は,制御アフィン系の場合のGaussとして一意的に特性化され,線形二次問題に対しては,HJB方程式をRiccati方程式に縮小し,最適制御の陽的表現を得るために使用できることを示した。最後に,適応動的計画法を採用して,これらの結果を連続時間モデルフリーRLに拡張する方法を論じた。著者らの知る限り,得られたアルゴリズムは,連続時間において情報理論的探索機構を使用する最初のデータ駆動制御方法である。【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (1件):
分類
JSTが定めた文献の分類名称とコードです
システム設計・解析 
タイトルに関連する用語 (3件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る