特許
J-GLOBAL ID:200903064335117208
エージェント学習装置
発明者:
,
出願人/特許権者:
,
,
代理人 (1件):
西澤 利夫
公報種別:公開公報
出願番号(国際出願番号):特願平10-203760
公開番号(公開出願番号):特開2000-035956
出願日: 1998年07月17日
公開日(公表日): 2000年02月02日
要約:
【要約】【課題】 非線形性/非定常性を持つ制御対象やシステムなどの環境で、具体的な教師信号は与えられず、様々な環境の状態や動作モードに最適な行動の切り替えや組み合わせを行い、また先見知識を用いることなく柔軟に行動学習を行なうことのできる、適応性に優れた、新しいエージェント学習装置を提供する。【解決手段】 環境(4)に対して働きかけ、その結果得られる報酬を最大化するための行動出力を決定する強化学習システム(1)と、環境の変化を予測する環境予測システム(2)との組によりなる学習モジュール(3)が複数備えられ、各学習モジュール(3)の環境予測システム(2)の予測誤差が少ないものほど大きな値を取る責任信号が求められ、この責任信号に比例して強化学習システム(1)による行動出力が重み付けされて、環境に対する行動が与えられる。
請求項(抜粋):
環境に対して働きかけ、その結果得られる報酬を最大化するための行動出力を決定する強化学習システムと、環境の変化を予測する環境予測システムとの組によりなる学習モジュールが複数備えられ、各学習モジュールの環境予測システムの予測誤差が少ないものほど大きな値を取る責任信号が求められ、この責任信号に比例して強化学習システムによる行動出力が重み付けされて、環境に対する行動が与えられることを特徴とするエージェント学習装置。
IPC (3件):
G06F 15/18 550
, G05B 13/02
, G05B 13/04
FI (3件):
G06F 15/18 550 E
, G05B 13/02 L
, G05B 13/04
Fターム (25件):
5H004GA15
, 5H004GB12
, 5H004GB13
, 5H004GB16
, 5H004GB17
, 5H004HA07
, 5H004HB07
, 5H004HB08
, 5H004HB09
, 5H004JA03
, 5H004JB07
, 5H004KA65
, 5H004KB38
, 5H004KC06
, 5H004KC10
, 5H004KC12
, 5H004KC24
, 5H004KC27
, 5H004KC46
, 5H004KD33
, 5H004KD45
, 5H004KD62
, 5H004KD70
, 5H004LA05
, 5H004MA19
前のページに戻る