Pat
J-GLOBAL ID:201403033181991942

行動制御装置、行動制御方法及び行動制御プログラム

Inventor:
Applicant, Patent owner:
Agent (4): 中尾 直樹 ,  中村 幸雄 ,  義村 宗洋 ,  草野 卓
Gazette classification:特許公報
Application number (International application number):2011050493
Publication number (International publication number):2012190062
Patent number:5475707
Application date: Mar. 08, 2011
Publication date: Oct. 04, 2012
Claim (excerpt):
【請求項1】 アクションaによって状態sから状態s’へ変わる状態遷移確率P(s’|s,a)と、アクションaによって状態s’で観測値o’が観測されるときの観測値出力確率P(o’|s’,a)と、を予め記憶しておくPOMDP確率・報酬テーブル記憶部と、 時刻をtとし、一つ前の状態の確率分布bt-1(s)を記憶する状態確率分布記憶部と、 一つ前のアクションat-1を記憶するアクション記憶部と、 前記アクション記憶部から一つ前のアクションat-1を取得し、一つ前のアクションat-1と現在の観測値ot’を用いて、前記POMDP確率・報酬テーブル記憶部を参照して、対応する状態遷移確率P(s’|s,a)と観測値出力確率P(o’|s’,a)を取得し、前記状態確率分布記憶部から一つ前の状態の確率分布bt-1(s)を取得し、現在の状態の確率分布bt(s’)を求める状態分布更新部と、 アクションaの連続出現回数nをアクション継続長naとし、アクション継続長naの確率をアクション継続長確率Pa(n)として予め記憶しておくアクション継続長確率テーブル記憶部と、 状態の確率分布を引数として各アクションに対するスコアを返す関数πを用いて、現在の状態の確率分布bt(s’)を引数として、各アクションに対するスコアを求め、一つ前のアクションと最もよいスコアに対応するアクションとが異なる場合には、最もよいスコアに対応するアクションをシステムがとるべきアクションとして決定し、行動制御の過程で更新される実時間アクション継続長を最小とし、一つ前のアクションと最もよいスコアに対応するアクションとが同じ場合には、最もよいスコアに対応するアクションの実時間アクション継続長に対応するアクション継続長確率を前記アクション継続長確率テーブル記憶部から受け取り、このアクション継続長確率から得られる値と一様乱数との大小関係に応じて、最もよいスコアに対応するアクションをシステムがとるべきアクションとして決定し実時間アクション継続長を1回分大きくするか、または、最もよいスコアに対応するアクションとは異なるアクションを、システムがとるべきアクションとして決定し、実時間アクション継続長を最小とするアクション決定部と、を備える、 行動制御装置。
IPC (1):
G06N 5/04 ( 200 6.01)
FI (1):
G06N 5/04 550 J

Return to Previous Page