ω正規目的を持つMarkov決定過程のリスク回避制御【Powered by NICT】

Ehlers Ruediger; Moarref Salar; Topcu Ufuk

文献

J-GLOBAL ID：201702234187722840 整理番号：17A0666405

ω正規目的を持つMarkov決定過程のリスク回避制御【Powered by NICT】

Risk-averse control of Markov decision processes with ω-regular objectives

出版者サイト複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=17A0666405&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=17A0666405&from=J-GLOBAL&jstjournalNo=W2441A") }}

著者 (3件)： , ,
資料名：
巻： 2016 号： CDC ページ： 426-433 発行年： 2016年
JST資料番号： W2441A 資料種別：会議録 (C)
記事区分：原著論文発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

Markov決定過程(MDP)としてモデル化できることを環境における多くの制御問題は無限時間地平仕様に関するものである。この文脈における古典的目的は,仕様を満たす確率を最大化する制御ポリシーを計算することである。多くのシナリオでは,しかし,システムの実行の各段階における破壊の非ゼロ確率。無限時間地平仕様では,これは仕様は,政策を選択したか長期物質,これらのシナリオで有用であるからの以前の政策計算法を防ぐにおける確率1の破れていないことを意味している。本論文では,いくつかの無限時間地平ω正規仕様の満足度に対する作業のタスクを捕捉するMDP政策のための新しい最適化基準を導入した。新しい基準は,仕様の破れは長期的に避けられないMDP(Markov決定過程)に適用可能である。この基準における最適政策を計算するアルゴリズムを与え,それはMDP制御における楽観主義とリスク嫌性のアイデアを捕捉できることを示す:コンピュータ政策はMDPランは比較的遅い破壊状態に入ることをにおける楽観的が,それらは常にそれぞれの次の目標状態に到達する確率を最大化することにより,リスクを嫌う。リスクを嫌うMDP政策の有用性を検証するために二台のロボット制御シナリオの結果を与えた。Copyright 2017 The Institute of Electrical and Electronics Engineers, Inc. All Rights reserved. Translated from English into Japanese by JST【Powered by NICT】

, , , ,
, , , 【Automatic Indexing@JST】

人工知能 , ロボットの運動・制御

前のページに戻る