行動制御装置、行動制御方法及び行動制御プログラム

Inventor： , , , ,
Applicant, Patent owner：
Agent (4)：中尾直樹 , 中村幸雄 , 義村宗洋 , 草野卓
Gazette classification：特許公報
Application number (International application number)：2010272627
Publication number (International publication number)：2012123529
Patent number：5427163
Application date： Dec. 07, 2010
Publication date： Jun. 28, 2012
Claim (excerpt)：

【請求項1】ユーザ・システム間対話の隠れ状態sはユーザ・システムの隠れ状態soと行動生成のための隠れ状態saとの組からなり、s=(so,sa)と表され、*は任意の状態soを、Nはアクションの種類の数を表し、システムのアクションaと行動生成のための隠れ状態saとは一対一に対応し、a=saのときのみ、アクション確率P(a|s=(*,sa))を1または1-(N-1)×εとし、アクションaによって状態sから状態s’へ変わる状態遷移確率P(s’|s,a)と、アクションaによって状態s’で観測値o’が観測されるときの観測値出力確率P(o’|s’,a)と、を予め記憶しておくPOMDP確率・報酬テーブル記憶部と、時刻をtとし、一つ前の状態の確率分布bt-1(s)を記憶する状態確率分布記憶部と、一つ前のアクションat-1を記憶するアクション記憶部と、 ηは全体の和を1にするための正規化定数を表すものとし、前記アクション記憶部から一つ前のアクションat-1を取得し、一つ前のアクションat-1と現在の観測値ot’を用いて、前記POMDP確率・報酬テーブル記憶部を参照して、対応する状態遷移確率P(s’|s,a)と観測値出力確率P(o’|s’,a)を取得し、前記状態確率分布記憶部から一つ前の状態の確率分布bt-1(s)を取得し、現在の状態の確率分布を求める状態分布更新部と、状態の確率分布を引数としてシステムがとるべきアクションを一つ出力する関数πを用いて、現在の状態の確率分布bt(s’)を引数としてシステムがとるべきアクションat’を決定するアクション決定部と、を備える、行動制御装置。

IPC (1)：

G06N 5/04 ( 200 6.01)

FI (1)：

G06N 5/04 550 J

Return to Previous Page