Pat
J-GLOBAL ID:200903004623928897

エージェント学習装置、エージェント学習方法及びエージェント学習プログラム

Inventor:
Applicant, Patent owner:
Agent (4): 小谷 悦司 ,  伊藤 孝夫 ,  樋口 次郎 ,  大月 伸介
Gazette classification:公開公報
Application number (International application number):2005236604
Publication number (International publication number):2007052589
Application date: Aug. 17, 2005
Publication date: Mar. 01, 2007
Summary:
【課題】 連続時間及び連続状態を取り扱うことができるとともに、環境から自律的且つ高速に学習を行うことができるエージェント学習装置を提供する。【解決手段】 内部状態推定器201は、環境50からの観測変数yを観測し、責任信号推定器202は、当該観測変数yから推定された環境50の状態に基づいて責任信号を算出し、行動選択器101は、責任信号等を基に状態I及び行動Jを選択し、下位報酬関数選択器102は、選択された状態I及び行動Jに対応する下位報酬関数を制御信号出力器203へ与え、制御信号出力器203は、下位報酬関数を最大にするように環境50への制御出力を決定する。【選択図】 図2
Claim (excerpt):
環境に基づいて学習し且つ当該学習の結果に基づいて当該環境に対して働きかけるエージェント学習装置であって、 観測関数を通した観測変数として環境の状態を観測し、当該観測変数に基づいて環境を連続状態から離散状態へと抽象化する環境抽象化手段と、 前記環境抽象化手段により抽象化された後の離散状態の中から、現在時刻において最も環境をよく抽象化している一の状態を指定するインデックスを決定する状態決定手段と、 前記状態決定手段により決定された一の離散状態において学習を行うことで取るべき一の行動を指定するインデックスを決定する行動決定手段と、 下位報酬として連続関数である複数の下位報酬関数の中から、前記状態決定手段により決定されたインデックスと、前記行動決定手段により決定されたインデックスとを有する一の下位報酬関数を選択する下位報酬選択手段と、 前記下位報酬選択手段により選択された下位報酬関数を最大にするように環境への制御出力を決定し、当該制御出力を用いて環境に対して働きかける制御出力決定手段とを備えることを特徴とするエージェント学習装置。
IPC (1):
G06N 3/00
FI (1):
G06N3/00 550E
F-Term (5):
5H004GA15 ,  5H004GB16 ,  5H004HA07 ,  5H004KC27 ,  5H004KD62
Article cited by the Patent:
Cited by applicant (4)
Show all
Cited by examiner (4)
Show all

Return to Previous Page