特許
J-GLOBAL ID:201203010704382223

強化学習装置、制御装置、および強化学習方法

発明者:
出願人/特許権者:
代理人 (1件): 谷川 英和
公報種別:公開公報
出願番号(国際出願番号):特願2011-074694
公開番号(公開出願番号):特開2012-208789
出願日: 2011年03月30日
公開日(公表日): 2012年10月25日
要約:
【課題】従来、報酬関数を構成する多数の項の間で発生するトレードオフが、ロボットの運動学習の妨げとなっていた。【解決手段】制御対象の環境に関する1以上の第一種環境パラメータの値を取得する第一種環境パラメータ取得手段と、1以上の第一種環境パラメータの値を報酬関数に代入し、報酬関数が出力する報酬を最大とするような1以上の制御パラメータの値を算出する制御パラメータ値算出手段と、1以上の制御パラメータの値を制御対象に対して出力する制御パラメータ値出力手段と、仮想外力に関連する1以上の第二種環境パラメータの値を取得する第二種環境パラメータ取得手段と、1以上の第二種環境パラメータを仮想外力関数に代入し、仮想外力を算出する仮想外力算出手段と、仮想外力を制御対象に対して出力する仮想外力出力手段とを具備する強化学習装置により、すばやくかつ安定して、ロボットの運動学習が行える。【選択図】図1
請求項(抜粋):
報酬を出力とする報酬関数を格納し得る報酬関数格納手段と、 移動する制御対象の環境に関する第一種のパラメータである1以上の第一種環境パラメータの値を取得する第一種環境パラメータ取得手段と、 前記1以上の第一種環境パラメータの値を前記報酬関数に代入し、当該報酬関数が出力する報酬を最大とするような1以上の制御パラメータの値を算出する制御パラメータ値算出手段と、 前記1以上の制御パラメータの値を前記制御対象に対して出力する制御パラメータ値出力手段と、 仮想的な外力である仮想外力を出力とする仮想外力関数を格納し得る仮想外力関数格納手段と、 前記仮想外力に関連する第二種のパラメータである1以上の第二種環境パラメータの値を取得する第二種環境パラメータ取得手段と、 前記1以上の第二種環境パラメータを前記仮想外力関数に代入し、仮想外力を算出する仮想外力算出手段と、 前記仮想外力を前記制御対象に対して出力する仮想外力出力手段とを具備する強化学習装置。
IPC (2件):
G05B 13/02 ,  G06N 3/00
FI (2件):
G05B13/02 L ,  G06N3/00 550E
Fターム (6件):
5H004GA05 ,  5H004GB16 ,  5H004HA07 ,  5H004HB07 ,  5H004JA03 ,  5H004KD61
引用特許:
審査官引用 (1件)

前のページに戻る