特許
J-GLOBAL ID:200903048470089812

情報処理装置および方法、並びに提供媒体

発明者:
出願人/特許権者:
代理人 (1件): 稲本 義雄
公報種別:公開公報
出願番号(国際出願番号):特願平11-021791
公開番号(公開出願番号):特開2000-122992
出願日: 1999年01月29日
公開日(公表日): 2000年04月28日
要約:
【要約】【課題】 少ないアクション経験で、リワードを最大にするアクションプランを生成できるようにする。【解決手段】 ステップS1で順方向ダイナミクスにより、リカレント型ニューラルネットワークにおいて、最大のリワードが得られる予測処理を行う。ステップS2において、逆方向ダイナミクスによるプランの生成処理が行われる。これにより、最大のリワードを得るためのアクションの差分値の系列がアクションプランとして生成される。以上の処理がステップS3において所望のアクションプランが得られたと判定されるまで、繰り返し実行される。
請求項(抜粋):
複数ステップ先に得られるリワードの内部モデルによる予測を最大にするアクションの変化分を演算する第1の演算手段と、アクションポリシーに基づきアクションを演算する第2の演算手段とを備えることを特徴とする情報処理装置。
IPC (4件):
G06F 15/18 550 ,  B25J 13/00 ,  G05B 13/02 ,  G05D 1/02
FI (4件):
G06F 15/18 550 E ,  B25J 13/00 Z ,  G05B 13/02 L ,  G05D 1/02 K
Fターム (26件):
3F059BB07 ,  3F059DA05 ,  3F059DB04 ,  3F059FC00 ,  3F059FC15 ,  5H004GB16 ,  5H004HA07 ,  5H004HB07 ,  5H004JA02 ,  5H004JA04 ,  5H004JB06 ,  5H004KC03 ,  5H004KC08 ,  5H004KC24 ,  5H004KC28 ,  5H004KD42 ,  5H004MA48 ,  5H301AA01 ,  5H301AA06 ,  5H301AA10 ,  5H301BB14 ,  5H301CC03 ,  5H301CC06 ,  5H301DD02 ,  5H301GG09 ,  5H301KK02

前のページに戻る