特許
J-GLOBAL ID:200903021050601261
制御器、制御方法および制御プログラム
発明者:
,
,
,
出願人/特許権者:
代理人 (7件):
深見 久郎
, 森田 俊雄
, 仲村 義平
, 堀井 豊
, 野田 久登
, 酒井 將行
, 荒川 伸夫
公報種別:公開公報
出願番号(国際出願番号):特願2008-143586
公開番号(公開出願番号):特開2009-289199
出願日: 2008年05月30日
公開日(公表日): 2009年12月10日
要約:
【課題】試行回数(学習時間)を減少させて、実タスクへ適用可能な方策勾配法のアルゴリズムを利用した制御器を提供する。【解決手段】制御信号を制御対象に与える処理を行って、制御対象の状態量を観測器(たとえば、位置センサ、角度センサ、加速度センサ、角加速度センサなど)で観測し、この観測結果により定常分布の対数の偏微分を推定し、これを用いて、新しい自然方策勾配である「自然定常方策勾配」を推定して、方策パラメータを更新し、これにより方策を更新する。そして、更新された方策により、さらに、制御対象が制御される。【選択図】図8
請求項(抜粋):
対象とするシステムの時間発展がマルコフ過程として記述される際に、前記システムの状態に対する制御則である方策を前記システムの状態量の観測により学習する制御器であって、
前記方策に基づいて、前記システムを制御するための制御信号を生成する制御信号生成手段と、
前記システムの前記状態量を観測する状態量検知手段と、
前記状態量により特定される状態と制御信号値の同時分布のフィッシャー情報行列をリーマン計量行列とする、平均報酬の自然勾配である自然定常方策勾配を推定する自然定常方策勾配推定手段と、
前記方策勾配推定手段による推定結果とに基づいて、前記方策を規定する方策パラメータを更新することで、前記方策を更新する方策更新手段とを備える、制御器。
IPC (1件):
FI (1件):
Fターム (6件):
5H004GA40
, 5H004GB03
, 5H004GB04
, 5H004GB16
, 5H004JB21
, 5H004KD61
引用特許:
前のページに戻る