ロボット装置、並びにその状態遷移モデル構築方法及び行動制御方法

発明者： ,
出願人/特許権者：
代理人 (3件)：小池晃 , 田村榮一 , 伊賀誠司
公報種別：公開公報
出願番号（国際出願番号）：特願2004-054829
公開番号（公開出願番号）：特開2005-238422
出願日： 2004年02月27日
公開日（公表日）： 2005年09月08日
要約：

【課題】ユーザとの相互作用を通じてユーザの情動遷移モデルをより正確に構築し、この情動遷移モデルを利用してユーザの情動を制御する。【解決手段】ロボット装置において、ユーザ音声認識部401及びユーザ画像認識部402は、それぞれユーザの音声信号及び画像信号に基づいてユーザの情動を検出する。情動推定部404は、これらの検出結果に基づいて、ユーザの現在の情動を予め所定数に離散化された複数の情動の何れかに分類する。長期記憶部405には、ユーザがある情動である場合にある行動を発現した後の情動と、その遷移によりユーザから与えられた報酬とに基づき、強化学習により構築されたユーザの情動遷移モデルが記憶されている。行動選択部406は、この情動遷移モデルを利用し、ユーザの現在の情動に応じて発現する行動を方策πに従って確率的に選択し、行動出力部407は、選択された行動を発現させる。【選択図】図4

請求項（抜粋）：

複数の行動から一の行動を選択して実行するロボット装置であって、上記ロボット装置のユーザの状態を所定の複数の状態の何れかに分類して検出する状態検出手段と、上記状態検出手段によって上記ユーザが一の状態であると検出された場合に、上記ユーザが当該一の状態であるときの各行動の行動価値から算出された選択確率に従って、上記複数の行動から実行する行動を選択する行動選択手段と、上記行動選択手段によって選択された行動を実行する行動実行手段と、上記ユーザの状態遷移モデルを学習により構築する学習手段とを備え、上記行動価値は、上記ユーザが任意の状態であるときに任意の行動を実行することで将来に亘って上記ユーザから与えられる報酬和の期待値を示すものであり、上記学習手段は、上記行動実行手段が一の行動を実行した結果、上記ユーザが第1の状態から第2の状態に遷移し、当該遷移に応じて上記ユーザから報酬が与えられた場合に、上記ユーザが上記第1の状態であるときの上記一の行動の行動価値を上記報酬に応じて更新する処理を、上記行動実行手段によって行動が実行される毎に繰り返し行うことにより、上記状態遷移モデルを構築することを特徴とするロボット装置。

IPC (4件)：

B25J13/00 , B25J5/00 , G06N1/00 , G06N3/00

FI (4件)：

B25J13/00 Z , B25J5/00 F , G06N1/00 510 , G06N3/00 550E

Fターム (10件)：

3C007AS36 , 3C007CS08 , 3C007KS11 , 3C007KS39 , 3C007KT01 , 3C007LW12 , 3C007WB13 , 3C007WB14 , 3C007WB17 , 3C007WB26

引用特許：

出願人引用 (1件)

国際公開第02/099545号パンフレット

前のページに戻る