特許
J-GLOBAL ID:200903002476639954

自己学習装置のアーキテクチャ

発明者:
出願人/特許権者:
代理人 (3件): 小池 晃 ,  田村 榮一 ,  伊賀 誠司
公報種別:公開公報
出願番号(国際出願番号):特願2004-168701
公開番号(公開出願番号):特開2005-050310
出願日: 2004年06月07日
公開日(公表日): 2005年02月24日
要約:
【課題】制約のない発達の能力を有する自己学習装置が、関連する感覚・運動装置により環境に対してどのような動作を行うべきかを選択することができる装置を提供する。【解決手段】ある特定の候補動作について、モチベーションモジュール11が、関連する感覚・運動装置の性質から独立した1つ以上のモチベーション変数が取る対応値と関連付けられた報酬を計算する。好ましいモチベーション変数は装置1の発達履歴に依存しており、装置1への入力としての役割を果たす感覚・運動変数の予測可能性と習熟度と安定性とを数量化する変数を含む。感覚・運動変数は、自己学習装置1によりその行動パターンが制御される感覚・運動装置2の外部環境及び/又は内部リソース3の状態を表す。制約のない発達は、履歴依存モチベーション変数の変化率に比例する報酬を割り当てることにより可能になっている。【選択図】 図2
請求項(抜粋):
環境の状態を表す1つ以上の感覚・運動変数(S(t))のセットの値を決定するための入力手段と、 使用時に自己学習装置と協調する感覚・運動装置の動作を制御するのに好適である1つ以上の制御信号(M(t))のセットを出力するための制御手段(10)と、 上記制御信号(M(t))のセットが取ることのできる候補値と関連する報酬(R(v,t))を計算するためのモチベーションモジュールと、 上記モチベーションモジュール(11)により制御信号の候補値が計算された報酬値に基づき、どのような値を上記制御信号(M(t))のセットが取るのかを判断すると共に、選択された値を出力するために上記制御手段を制御するための選択手段(10)とを備え、 上記モチベーションモジュール(11)が、上記セット(SM(t))の感覚・運動変数からその値が導出される少なくとも1つのモチベーション変数(v)の関数(R(v,t))を計算することにより報酬を評価するのに好適である自己学習装置であって、 上記モチベーションモジュール(11)は、上記少なくとも1つのモチベーション変数(v)の値を計算するために履歴依存計算を行うのに好適である計算装置(15)を使用し、 上記履歴依存計算は、 a)上記計算装置(15)又は少なくとも1つのモチベーション変数(v)の計算時に該計算装置と共働する装置の1つ以上の時間依存内部パラメータと、 b)上記セットの上記少なくとも1つの感覚・運動変数が異なる時点において取る値(SM(t),SM(t-1))と の少なくとも1つに依存している ことを特徴とする自己学習装置。
IPC (2件):
G06N3/00 ,  B25J13/00
FI (2件):
G06N3/00 550E ,  B25J13/00 Z
Fターム (8件):
3C007AS36 ,  3C007LW12 ,  3C007LW15 ,  3C007WA04 ,  3C007WA14 ,  3C007WB14 ,  3C007WB16 ,  3C007WC01

前のページに戻る