特許
J-GLOBAL ID:201203001673501823
行動制御装置、行動制御方法及び行動制御プログラム
発明者:
,
,
,
,
出願人/特許権者:
代理人 (4件):
中尾 直樹
, 中村 幸雄
, 義村 宗洋
, 草野 卓
公報種別:公開公報
出願番号(国際出願番号):特願2010-272627
公開番号(公開出願番号):特開2012-123529
出願日: 2010年12月07日
公開日(公表日): 2012年06月28日
要約:
【課題】所望の行動系列以外の場合に、従来技術より学習データの統計に従った行動決定を行うことができる行動制御技術を提供することを目的とする。【解決手段】アクション記憶部から一つ前のアクションat-1を取得し、一つ前のアクションat-1と現在の観測値ot’を用いて、POMDP確率・報酬テーブル記憶部を参照して、アクションaによって状態sから状態s’へ変わる状態遷移確率P(s’|s,a)とアクションaによって状態s’で観測値o’が観測されるときの観測値出力確率P(o’|s’,a)を取得し、状態確率分布記憶部から一つ前の状態の確率分布bt-1(s)を取得し、現在の状態の確率分布を求める。【選択図】図3
請求項(抜粋):
ユーザ・システム間対話の隠れ状態sはユーザ・システムの隠れ状態soと行動生成のための隠れ状態saとの組からなり、s=(so,sa)と表され、*は任意の状態soを、Nはアクションの種類の数を表し、システムのアクションaと行動生成のための隠れ状態saとは一対一に対応し、a=saのときのみ、アクション確率P(a|s=(*,sa))を1または1-(N-1)×εとし、アクションaによって状態sから状態s’へ変わる状態遷移確率P(s’|s,a)と、アクションaによって状態s’で観測値o’が観測されるときの観測値出力確率P(o’|s’,a)と、を予め記憶しておくPOMDP確率・報酬テーブル記憶部と、
時刻をtとし、一つ前の状態の確率分布bt-1(s)を記憶する状態確率分布記憶部と、
一つ前のアクションat-1を記憶するアクション記憶部と、
ηは全体の和を1にするための正規化定数を表すものとし、前記アクション記憶部から一つ前のアクションat-1を取得し、一つ前のアクションat-1と現在の観測値ot’を用いて、前記POMDP確率・報酬テーブル記憶部を参照して、対応する状態遷移確率P(s’|s,a)と観測値出力確率P(o’|s’,a)を取得し、前記状態確率分布記憶部から一つ前の状態の確率分布bt-1(s)を取得し、現在の状態の確率分布
IPC (1件):
FI (1件):
前のページに戻る