特許
J-GLOBAL ID:201303086536806210
マルコフ決定過程システム環境下における方策パラメータを更新するための方法、並びに、その制御器及び制御プログラム
発明者:
,
,
出願人/特許権者:
代理人 (5件):
上野 剛史
, 太佐 種一
, 市位 嘉宏
, 松井 光夫
, 村上 博司
公報種別:公開公報
出願番号(国際出願番号):特願2012-116440
公開番号(公開出願番号):特開2013-242761
出願日: 2012年05月22日
公開日(公表日): 2013年12月05日
要約:
【課題】本発明は、不必要な混合時間の増加を抑えながら、意思決定モデルを学習する機能を実現することを目的とする。【解決手段】本発明は、マルコフ決定過程システム環境下における方策を規定するパラメータ(方策パラメータ)を更新するための技法であって、当該技法は、第1の状態(s)から第2の状態(s’)に初めて状態遷移するために必要なステップ数(到達時間)の統計量(期待到達時間関数)の第1の状態(s)と第2の状態(s’)についての重み付け和(重み付け期待到達時間和)を減少させる項を有する更新式に従って、上記方策パラメータを更新することを特徴とする上記技法を提供する。【選択図】 図4A
請求項(抜粋):
マルコフ決定過程システム環境下における方策を規定するパラメータ(以下、「方策パラメータ」という)を更新するための方法であって、制御器が、
第1の状態(s)から第2の状態(s’)に初めて状態遷移するために必要なステップ数(以下、「到達時間」という)の統計量(以下、「期待到達時間」という)の第1の状態(s)と第2の状態(s’)についての重み付け和(以下、「重み付け期待到達時間和」という)を減少させる項を有する更新式に従って、前記制御器の記憶部上に格納された前記方策パラメータを更新するステップ
を実行することを含む、前記方法。
IPC (3件):
G06N 3/00
, G06N 5/04
, G05B 13/02
FI (3件):
G06N3/00 550E
, G06N5/04 550J
, G05B13/02 L
Fターム (8件):
5H004GA02
, 5H004GA17
, 5H004GA18
, 5H004GB11
, 5H004GB16
, 5H004KD61
, 5H004LA12
, 5H004MA36
前のページに戻る