文献
J-GLOBAL ID:202002237576108018   整理番号:20A0580676

非線形制御-アフィンシステムの有限水平最適制御に適用したモデルベースの深層強化学習法【JST・京大機械翻訳】

A model-based deep reinforcement learning method applied to finite-horizon optimal control of nonlinear control-affine system
著者 (6件):
資料名:
巻: 87  ページ: 166-178  発行年: 2020年 
JST資料番号: W0388A  ISSN: 0959-1524  資料種別: 逐次刊行物 (A)
記事区分: 原著論文  発行国: オランダ (NLD)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
Hamilton-Jacobi-Bellman(HJB)方程式は,一般的非線形システムに対する最適閉ループ制御方針を得るために解くことができる。非線形系に対するHJB方程式を厳密に解くことができないので,解析的あるいは数値的に,シミュレーションに基づく学習を通して近似解を構築する方法を,神経動的計画法(NDP)や近似動的計画法(ADP)のような種々の名前で研究した。学習の側面は,学習(RL)を強化するためにこれらの方法を結びつけて,それはまた,試行錯誤ベースの学習を通して最適決定政策を学ぶことを試みた。本研究では,HJBとその関連方程式に対する解を反復的に学習するモデルベースRL法を開発した。著者らは,特に二次目的関数を有する制御アフィンシステムと時変参照軌道を有する有限層最適制御(FHOC)問題に焦点を合わせた。このようなシステムに対するHJB解は,境界条件に従う時変値,共状態,および政策関数を含む。一般的で効率的な方法で高次元状態空間における時変HJB解を表現するために,深いニューラルネットワーク(DNNs)を採用した。浅いニューラルネットワーク(SNNs)と比較してDNNsの使用は,不確実な初期状態と状態雑音の存在下で学習された政策の性能を大幅に改善できることを示した。バッチ化学反応器と一次元拡散-対流-反応システムを含む例を用いて,この方法のこれと他の重要な側面を実証した。Copyright 2020 Elsevier B.V., Amsterdam. All rights reserved. Translated from English into Japanese by JST.【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

分類 (1件):
分類
JSTが定めた文献の分類名称とコードです
プロセス制御 
タイトルに関連する用語 (4件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る