行動制御装置および行動制御方法、並びに、プログラム

発明者： ,
出願人/特許権者：
代理人 (1件)：稲本義雄
公報種別：公開公報
出願番号（国際出願番号）：特願2005-345847
公開番号（公開出願番号）：特開2007-018490
出願日： 2005年11月30日
公開日（公表日）： 2007年01月25日
要約：

【課題】次元に呪われることなく、予測学習を行う。【解決手段】予測部131は、自律エージェントが、時刻tに取ったアクションAtとセンサ入力Stから、時刻t+1のセンサ入力が取る値を常に予測学習し、学習に、統計学習による関数近似器を使う。ゴール生成部132は、予め設計されてタスクに応じた目標状態を計画部133に与える。計画部133は、現在の状態から目標状態に達するまでの行動シーケンスをプランする。目標までのプランが生成できた場合、そのシーケンスが順に実行され、プランが成功した場合、目標状態を固定入力として、観測した状態と選択したアクションの関係が学習される。制御部134は、計画部133による計画と環境とを教師とした学習を実行し、自律エージェントのアクションを制御し、アクションが成功した場合、その入出力関係を学習する。本発明は、自律エージェントの自律行動制御モデルに適用できる。【選択図】図6

請求項（抜粋）：

環境の状態を知覚し、その知覚した内容に基づいて、行動を選択することができる機器の行動を制御する行動制御装置において、前記行動と前記環境の状態の変化を学習し、これを基に、所定の行動に対する前記環境の状態の変化を予測する予測手段と、前記予測手段による予測に基づいて、現在の状態から目標状態に達するまでの行動シーケンスを計画する計画手段と、前記計画手段により計画された前記行動シーケンスに対して、前記行動を制御するとともに、前記行動により前記目標状態に到達した場合、その入出力関係を学習する制御手段とを備える行動制御装置。

IPC (3件)：

G06N 3/00 , G06N 5/04 , G05B 13/02

FI (3件)：

G06N3/00 550E , G06N5/04 580A , G05B13/02 L

Fターム (6件)：

5H004GB16 , 5H004HA07 , 5H004HB07 , 5H004HB14 , 5H004KD63 , 5H004MA04

引用特許：

審査官引用 (3件)

問題解決器、及び記憶媒体
公報種別：公開公報出願番号：特願2000-352343 出願人：富士通株式会社
全探索法併用実時間探索法
公報種別：公開公報出願番号：特願平9-261859 出願人：日本電信電話株式会社
問題解決装置及び方法並びにプログラム記憶媒体
公報種別：公開公報出願番号：特願平9-217287 出願人：富士通株式会社

引用文献：

審査官引用 (5件)

Model-Based Learning for Mobile Robot Navigation from the Dynamical Systems Perspective
Profit Sharing に基づく強化学習の理論と応用
エージェントアプローチ人工知能, 19971215, 初版, pp.791-795

全件表示

前のページに戻る