特許
J-GLOBAL ID:200903072783970879

ロバスト強化学習方式

発明者:
出願人/特許権者:
代理人 (1件): 長瀬 成城
公報種別:公開公報
出願番号(国際出願番号):特願2000-386265
公開番号(公開出願番号):特開2002-189502
出願日: 2000年12月20日
公開日(公表日): 2002年07月05日
要約:
【要約】【課題】環境モデルが未知の場合にも対応することができるとともに、環境の変動に比較的強いロバスト制御の学習方法およびロバスト制御器を提供する。【解決手段】環境(1)に行動信号u(t)を出力するとともに学習機能を具備する行動生成器(2)と、環境に外乱信号w(t)を出力するとともに学習機能を具備する外乱生成器(4)と、目標の達成度に応じた報酬に、前記外乱生成器からの外乱に耐えうることに応じた報酬を加味した報酬信号である評価信号q(t)を生成し、現在の状態x(t)から将来に向けて得られる評価信号の和の期待値を予測し、その予測誤差信号を生成する状態評価器(3)とを備え、現在の状態から将来に向けて得られる評価信号の和の期待値を最大化するべく行動生成器は学習し、一方、外乱生成器は前記評価信号の和の期待値を最小化すべく学習する。
請求項(抜粋):
制御対象あるいは環境に行動信号を出力するとともに学習機能を具備する行動生成器、および制御対象あるいは環境に外乱信号を出力するとともに学習機能を具備する外乱生成器を備え、目標の達成度に応じた報酬に、前記外乱生成器からの外乱に耐えうることに応じた報酬を加味した報酬信号である評価信号を生成し、現在の状態から将来に向けて得られる評価信号の荷重和の期待値を最大化(または最小化)するべく行動生成器は学習し、一方、外乱生成器は前記評価信号の和の期待値を最小化(または最大化)すべく学習することを特徴とするロバスト強化学習方式。
IPC (3件):
G05B 13/02 ,  G05B 13/04 ,  G06N 3/00 550
FI (4件):
G05B 13/02 T ,  G05B 13/02 J ,  G05B 13/04 ,  G06N 3/00 550 E
Fターム (10件):
5H004GA07 ,  5H004GA15 ,  5H004GA17 ,  5H004JA13 ,  5H004JB22 ,  5H004KC09 ,  5H004KC18 ,  5H004KC28 ,  5H004KD42 ,  5H004KD62
引用特許:
出願人引用 (1件)
  • 特開平3-208102

前のページに戻る