多重モデル離散時間システムの最適制御のためのActor-Criticオフポリシー学習【Powered by NICT】

Skach Jan; Kiumarsi Bahare; Lewis Frank L.; Straka Ondrej

文献

J-GLOBAL ID：201802249662065170 整理番号：18A0161049

多重モデル離散時間システムの最適制御のためのActor-Criticオフポリシー学習【Powered by NICT】

Actor-Critic Off-Policy Learning for Optimal Control of Multiple-Model Discrete-Time Systems

出版者サイト複写サービスで全文入手
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=18A0161049&from=J-GLOBAL&jstjournalNo=W0791A") }}

著者 (4件)： , , ,
資料名：
巻： 48 号： 1 ページ： 29-40 発行年： 2018年
JST資料番号： W0791A ISSN： 2168-2267 CODEN： ITCEB8 資料種別：逐次刊行物 (A)
記事区分：原著論文発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

本論文では,ヒト神経認知実験に動機付けられて,多重モデル線形離散時間システムの最適トラッキング制御を解決するために開発されたモデルフリーポリシー外強化学習アルゴリズム。最初に,適応自己組織化マップニューラルネットワークを用いた測定データからのシステム挙動を決定し,システム可能な挙動の各々に責任信号を帰属した。システム挙動の急激な変化は,測定データから検出され,挙動は以前に検出されていない場合,新しいモデルを加えた。価値関数は部分的に重み付き価値関数により表現される。オフポリシー反復アルゴリズムは,システム動力学または基準軌道動力学についての知識なしに解を見出すために多重モデル学習に一般化した。挙動政策を実行から得られた経験の流れは異なる学習政策逐次的に対応するいくつかの価値関数を更新するために再利用するためのポリシー外手法は調整のデータ効率と速度を増加させるのに役立つ。二つの数値事例をポリシー外アルゴリズム性能の実証として役立つ。Copyright 2018 The Institute of Electrical and Electronics Engineers, Inc. All Rights reserved. Translated from English into Japanese by JST【Powered by NICT】

, , , , , , , , , , ,
, , , 【Automatic Indexing@JST】

人工知能 , システム・制御理論一般

, , ,

前のページに戻る