特許
J-GLOBAL ID:200903090173931659

行動制御装置および行動制御方法、並びに、プログラム

発明者:
出願人/特許権者:
代理人 (1件): 稲本 義雄
公報種別:公開公報
出願番号(国際出願番号):特願2005-345847
公開番号(公開出願番号):特開2007-018490
出願日: 2005年11月30日
公開日(公表日): 2007年01月25日
要約:
【課題】次元に呪われることなく、予測学習を行う。【解決手段】予測部131は、自律エージェントが、時刻tに取ったアクションAtとセンサ入力Stから、時刻t+1のセンサ入力が取る値を常に予測学習し、学習に、統計学習による関数近似器を使う。ゴール生成部132は、予め設計されてタスクに応じた目標状態を計画部133に与える。計画部133は、現在の状態から目標状態に達するまでの行動シーケンスをプランする。目標までのプランが生成できた場合、そのシーケンスが順に実行され、プランが成功した場合、目標状態を固定入力として、観測した状態と選択したアクションの関係が学習される。制御部134は、計画部133による計画と環境とを教師とした学習を実行し、自律エージェントのアクションを制御し、アクションが成功した場合、その入出力関係を学習する。本発明は、自律エージェントの自律行動制御モデルに適用できる。【選択図】図6
請求項(抜粋):
環境の状態を知覚し、その知覚した内容に基づいて、行動を選択することができる機器の行動を制御する行動制御装置において、 前記行動と前記環境の状態の変化を学習し、これを基に、所定の行動に対する前記環境の状態の変化を予測する予測手段と、 前記予測手段による予測に基づいて、現在の状態から目標状態に達するまでの行動シーケンスを計画する計画手段と、 前記計画手段により計画された前記行動シーケンスに対して、前記行動を制御するとともに、前記行動により前記目標状態に到達した場合、その入出力関係を学習する制御手段と を備える行動制御装置。
IPC (3件):
G06N 3/00 ,  G06N 5/04 ,  G05B 13/02
FI (3件):
G06N3/00 550E ,  G06N5/04 580A ,  G05B13/02 L
Fターム (6件):
5H004GB16 ,  5H004HA07 ,  5H004HB07 ,  5H004HB14 ,  5H004KD63 ,  5H004MA04
引用特許:
審査官引用 (3件)
引用文献:
審査官引用 (5件)
全件表示

前のページに戻る