強化学習の価値関数表現方法およびこれを用いた装置

発明者： ,
出願人/特許権者：
代理人 (1件)：鈴木雄一
公報種別：公開公報
出願番号（国際出願番号）：特願2005-254763
公開番号（公開出願番号）：特開2007-066242
出願日： 2005年09月02日
公開日（公表日）： 2007年03月15日
要約：

【課題】強化学習法は自律移動ロボット等に応用される知的動作の一つであり、未知の環境での動作が可能であるなど優れた面を持つシステムであるが、不完全知覚問題という基礎的な課題を持っている。いろいろな解決策が提案されているが、決め手はなく、システムも複雑なものになり兼ねない。簡単で効果的な解決方法が望まれている。【解決手段】状態行動価値を複素数で定義する複素価値関数を導入する。時系列情報は複素数値の位相部分に取り込むことにする。これにより、複雑なアルゴリズムを用いることなく時系列情報が価値関数に取り込まれ、簡便な実装により不完全知覚問題が有効に解決される。【選択図】図4

請求項（抜粋）：

価値関数に複素数値関数を使用し、時系列情報を複素数の位相部分もしくは位相部分および振幅部分に算入することにより、不完全知覚問題に対応することを特徴とする強化学習の価値関数表現方法。

IPC (1件)：

G06N 3/00

FI (1件)：

G06N3/00 550E

Fターム (8件)：

5H004GA02 , 5H004GB16 , 5H004HA07 , 5H004HB07 , 5H004HB08 , 5H004JA03 , 5H004JB01 , 5H004KD61

引用特許：

出願人引用 (1件)

エージェント学習装置
公報種別：公開公報出願番号：特願平10-203760 出願人：科学技術振興事業団, 銅谷賢治, 川人光男

引用文献：

審査官引用 (2件)

前のページに戻る