特許
J-GLOBAL ID:200903004623928897

エージェント学習装置、エージェント学習方法及びエージェント学習プログラム

発明者:
出願人/特許権者:
代理人 (4件): 小谷 悦司 ,  伊藤 孝夫 ,  樋口 次郎 ,  大月 伸介
公報種別:公開公報
出願番号(国際出願番号):特願2005-236604
公開番号(公開出願番号):特開2007-052589
出願日: 2005年08月17日
公開日(公表日): 2007年03月01日
要約:
【課題】 連続時間及び連続状態を取り扱うことができるとともに、環境から自律的且つ高速に学習を行うことができるエージェント学習装置を提供する。【解決手段】 内部状態推定器201は、環境50からの観測変数yを観測し、責任信号推定器202は、当該観測変数yから推定された環境50の状態に基づいて責任信号を算出し、行動選択器101は、責任信号等を基に状態I及び行動Jを選択し、下位報酬関数選択器102は、選択された状態I及び行動Jに対応する下位報酬関数を制御信号出力器203へ与え、制御信号出力器203は、下位報酬関数を最大にするように環境50への制御出力を決定する。【選択図】 図2
請求項(抜粋):
環境に基づいて学習し且つ当該学習の結果に基づいて当該環境に対して働きかけるエージェント学習装置であって、 観測関数を通した観測変数として環境の状態を観測し、当該観測変数に基づいて環境を連続状態から離散状態へと抽象化する環境抽象化手段と、 前記環境抽象化手段により抽象化された後の離散状態の中から、現在時刻において最も環境をよく抽象化している一の状態を指定するインデックスを決定する状態決定手段と、 前記状態決定手段により決定された一の離散状態において学習を行うことで取るべき一の行動を指定するインデックスを決定する行動決定手段と、 下位報酬として連続関数である複数の下位報酬関数の中から、前記状態決定手段により決定されたインデックスと、前記行動決定手段により決定されたインデックスとを有する一の下位報酬関数を選択する下位報酬選択手段と、 前記下位報酬選択手段により選択された下位報酬関数を最大にするように環境への制御出力を決定し、当該制御出力を用いて環境に対して働きかける制御出力決定手段とを備えることを特徴とするエージェント学習装置。
IPC (1件):
G06N 3/00
FI (1件):
G06N3/00 550E
Fターム (5件):
5H004GA15 ,  5H004GB16 ,  5H004HA07 ,  5H004KC27 ,  5H004KD62
引用文献:
出願人引用 (4件)
全件表示
審査官引用 (4件)
全件表示

前のページに戻る