抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
Markov決定過程(MDP)としてモデル化できることを環境における多くの制御問題は無限時間地平仕様に関するものである。この文脈における古典的目的は,仕様を満たす確率を最大化する制御ポリシーを計算することである。多くのシナリオでは,しかし,システムの実行の各段階における破壊の非ゼロ確率。無限時間地平仕様では,これは仕様は,政策を選択したか長期物質,これらのシナリオで有用であるからの以前の政策計算法を防ぐにおける確率1の破れていないことを意味している。本論文では,いくつかの無限時間地平ω正規仕様の満足度に対する作業のタスクを捕捉するMDP政策のための新しい最適化基準を導入した。新しい基準は,仕様の破れは長期的に避けられないMDP(Markov決定過程)に適用可能である。この基準における最適政策を計算するアルゴリズムを与え,それはMDP制御における楽観主義とリスク嫌性のアイデアを捕捉できることを示す:コンピュータ政策はMDPランは比較的遅い破壊状態に入ることをにおける楽観的が,それらは常にそれぞれの次の目標状態に到達する確率を最大化することにより,リスクを嫌う。リスクを嫌うMDP政策の有用性を検証するために二台のロボット制御シナリオの結果を与えた。Copyright 2017 The Institute of Electrical and Electronics Engineers, Inc. All Rights reserved. Translated from English into Japanese by JST【Powered by NICT】