Gauss過程を用いた連続時間Markov決定過程における政策学習【Powered by NICT】

Bartocci Ezio; Bortolussi Luca; Bortolussi Luca; Bortolussi Luca; Brazdil Tomas; Milios Dimitrios; Sanguinetti Guido; Sanguinetti Guido

文献

J-GLOBAL ID：201702262754135899 整理番号：17A1624769

Gauss過程を用いた連続時間Markov決定過程における政策学習【Powered by NICT】

Policy learning in continuous-time Markov decision processes using Gaussian Processes

出版者サイト複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=17A1624769&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=17A1624769&from=J-GLOBAL&jstjournalNo=C0647B") }}

著者 (8件)： , , , , , , ,
資料名：
巻： 116 ページ： 84-100 発行年： 2017年
JST資料番号： C0647B ISSN： 0166-5316 CODEN： PEEVD9 資料種別：逐次刊行物 (A)
記事区分：原著論文発行国：オランダ (NLD) 言語：英語 (EN)

連続時間Markov決定過程は,広い範囲の応用,サイバー物理システムに対する個体群の制御の範囲で政策決定問題を解くための非常に強力な数学的フレームワークを提供した。これらのモデルを解くために鍵となる問題は,時相論理仕様のセットを満足させる確率を最大化するためにシステムを制御するための最適政策を効率的に計算することである。ここでは,統計的モデル検査に基づく新しい方法と可能な政策の空間における傾斜機能の不偏推定を導入した。提案アプローチでは,離散化手法に基づく古典的な方法に比べていくつかの利点を示し,ブラックボックスで置き換えることができることをモデルの事前知識を仮定しないと,状態空間爆発の影響を受けない。探索を導く大幅に確率的モーメントベースの勾配上昇アルゴリズムの使用は学習政策の効率を改善し,運動量項を用いて収束を加速した。非線形ポピュレーションモデル二例の上で提案アプローチの強力な性能を示さない:永久的な回復と疫学モデルと非決定性選択を有する待ち行列システム。Copyright 2017 Elsevier B.V., Amsterdam. All rights reserved. Translated from English into Japanese by JST.【Powered by NICT】

, , , , , , , , ,
, , , , , 【Automatic Indexing@JST】

著者キーワード (4件)： , , ,

システム・制御理論一般 , パターン認識 , CAD,CAM

, , , ,

前のページに戻る