特許
J-GLOBAL ID:201203055913331311

行動制御装置、行動制御方法及び行動制御プログラム

発明者:
出願人/特許権者:
代理人 (4件): 中尾 直樹 ,  中村 幸雄 ,  義村 宗洋 ,  草野 卓
公報種別:公開公報
出願番号(国際出願番号):特願2011-050493
公開番号(公開出願番号):特開2012-190062
出願日: 2011年03月08日
公開日(公表日): 2012年10月04日
要約:
【課題】データの統計量に従って、自動的にシステムの行動を決定することができ、かつ、ある特定のアクションを何回も繰り返し生成する現象を起こさないPOMDPによる行動制御装置等を提供する。【解決手段】アクションの連続出現回数をアクション継続長とし、アクション継続長の確率をアクション継続長確率として予め記憶しておき、現在の状態の確率分布を引数として、各アクションに対するスコアを求め、一つ前のアクションと最もよいスコアに対応するアクションとが同じ場合には、最もよいスコアに対応するアクションの実時間アクション継続長に対応するアクション継続長確率から得られる値と一様乱数との大小関係に応じて、最もよいスコアに対応するアクションを、または、最もよいスコアに対応するアクションとは異なるアクションを、システムがとるべきアクションとして決定する。【選択図】図4
請求項(抜粋):
アクションaによって状態sから状態s’へ変わる状態遷移確率P(s’|s,a)と、アクションaによって状態s’で観測値o’が観測されるときの観測値出力確率P(o’|s’,a)と、を予め記憶しておくPOMDP確率・報酬テーブル記憶部と、 時刻をtとし、一つ前の状態の確率分布bt-1(s)を記憶する状態確率分布記憶部と、 一つ前のアクションat-1を記憶するアクション記憶部と、 前記アクション記憶部から一つ前のアクションat-1を取得し、一つ前のアクションat-1と現在の観測値ot’を用いて、前記POMDP確率・報酬テーブル記憶部を参照して、対応する状態遷移確率P(s’|s,a)と観測値出力確率P(o’|s’,a)を取得し、前記状態確率分布記憶部から一つ前の状態の確率分布bt-1(s)を取得し、現在の状態の確率分布bt(s’)を求める状態分布更新部と、 アクションaの連続出現回数nをアクション継続長naとし、アクション継続長naの確率をアクション継続長確率Pa(n)として予め記憶しておくアクション継続長確率テーブル記憶部と、 状態の確率分布を引数として各アクションに対するスコアを返す関数πを用いて、現在の状態の確率分布bt(s’)を引数として、各アクションに対するスコアを求め、一つ前のアクションと最もよいスコアに対応するアクションとが異なる場合には、最もよいスコアに対応するアクションをシステムがとるべきアクションとして決定し、行動制御の過程で更新される実時間アクション継続長を最小とし、一つ前のアクションと最もよいスコアに対応するアクションとが同じ場合には、最もよいスコアに対応するアクションの実時間アクション継続長に対応するアクション継続長確率を前記アクション継続長確率テーブル記憶部から受け取り、このアクション継続長確率から得られる値と一様乱数との大小関係に応じて、最もよいスコアに対応するアクションをシステムがとるべきアクションとして決定し実時間アクション継続長を1回分大きくするか、または、最もよいスコアに対応するアクションとは異なるアクションを、システムがとるべきアクションとして決定し、実時間アクション継続長を最小とするアクション決定部と、を備える、 行動制御装置。
IPC (2件):
G06N 5/04 ,  G05B 13/02
FI (2件):
G06N5/04 550J ,  G05B13/02 L
Fターム (3件):
5H004GA30 ,  5H004GA38 ,  5H004KD61

前のページに戻る