特許
J-GLOBAL ID:200903090693753028
制御器、制御方法および制御プログラム
発明者:
,
,
,
出願人/特許権者:
代理人 (7件):
深見 久郎
, 森田 俊雄
, 仲村 義平
, 堀井 豊
, 野田 久登
, 酒井 將行
, 荒川 伸夫
公報種別:公開公報
出願番号(国際出願番号):特願2008-077671
公開番号(公開出願番号):特開2009-230645
出願日: 2008年03月25日
公開日(公表日): 2009年10月08日
要約:
【課題】計算量を減少させて、実タスクへ適用可能な方策勾配法のアルゴリズムを利用した制御器を提供する。【解決手段】制御信号を制御対象に与える処理を行って、制御対象の状態量を観測器(たとえば、位置センサ、角度センサ、加速度センサ、角加速度センサなど)で観測し、この観測結果により定常分布の対数の偏微分を推定することで、方策の勾配を推定し、推定結果に基づいて、方策を更新する。そして、更新された方策により、さらに、制御対象が制御される。【選択図】図7
請求項(抜粋):
対象とするシステムの時間発展がマルコフ過程として記述される際に、前記システムの状態に対する制御則である方策を前記システムの状態量の観測により学習する制御器であって、
前記方策に基づいて、前記システムを制御するための制御信号を生成する制御信号生成手段と、
前記システムの前記状態量を観測する状態量検知手段と、
前記状態と前記制御信号とに予め定められた関係で依存する報酬値を獲得する報酬値獲得手段と、
各タイムステップにおける前記状態量と前記制御信号とに基づいて、定常分布の対数の偏微分を推定することで、前記方策の勾配を推定する方策勾配推定手段と、
前記報酬値と前記方策勾配推定手段による推定結果とに基づいて、前記方策を規定する方策パラメータを更新することで、前記方策を更新する方策更新手段とを備える、制御器。
IPC (1件):
FI (2件):
G05B13/02 J
, G05B13/02 L
Fターム (13件):
5H004GA30
, 5H004GA33
, 5H004GB01
, 5H004GB12
, 5H004GB16
, 5H004KC02
, 5H004KC08
, 5H004KD61
, 5H004MA05
, 5H004MA06
, 5H004MA27
, 5H004MA36
, 5H004MA47
引用特許:
前のページに戻る