特許
J-GLOBAL ID:200903088036693630
制御器、制御方法および制御プログラム
発明者:
,
,
出願人/特許権者:
代理人 (6件):
深見 久郎
, 森田 俊雄
, 仲村 義平
, 堀井 豊
, 野田 久登
, 酒井 將行
公報種別:公開公報
出願番号(国際出願番号):特願2005-250306
公開番号(公開出願番号):特開2007-065929
出願日: 2005年08月30日
公開日(公表日): 2007年03月15日
要約:
【課題】 計算量を減少させて、実タスクへ適用可能な自然方策勾配法のアルゴリズムを利用した制御器を提供する。【解決手段】 制御信号を制御対象に与える処理を行って、制御対象の状態量を観測器(たとえば、位置センサ、角度センサ、加速度センサ、角加速度センサなど)で観測し、この観測結果によりTD誤差を求め、TD誤差近似器を更新して、方策を更新する。そして、更新された方策により、さらに、制御対象が制御される。【選択図】 図3
請求項(抜粋):
対象とするシステムの時間発展がマルコフ過程として記述される際に、前記システムの状態に対する制御則である方策を前記システムの状態量の観測によりTD誤差を利用して学習する制御器であって、
前記方策に基づいて、前記システムを制御するための制御信号を生成する制御信号生成手段と、
前記システムの前記状態量を観測する状態量検知手段と、
前記状態と前記制御信号に依存する予め定められた報酬値を獲得する報酬値獲得手段と、
前記状態に依存する状態価値関数と前記TD誤差の近似器との適格度トレースをとる適格度トレース手段と、
観測された状態量および獲得された前記報酬値と前記状態価値関数により前記TD誤差を算出し、前記状態価値関数の適格度トレースに基づいて前記状態価値関数を更新する状態価値関数更新手段と、
前記報酬値と前記状態価値関数と前記TD誤差の近似器の適格度トレースとに基づいて、前記TD誤差を状態行動空間で捉えた前記近似器を更新するTD誤差近似器更新手段と、
前記近似器のパラメータに対して忘却処理を行なうための忘却処理手段と、
前記TD誤差の近似器のパラメータに基づいて獲得される、前記方策の自然勾配により、前記方策を更新する方策更新手段とを備える、制御器。
IPC (2件):
FI (2件):
G06N3/00 550E
, G05B13/02 L
Fターム (5件):
5H004GA30
, 5H004GB01
, 5H004GB12
, 5H004GB16
, 5H004KD63
引用文献:
前のページに戻る