特許
J-GLOBAL ID:200903003796651029

ロボット行動選択装置及びロボット行動選択方法

発明者:
出願人/特許権者:
代理人 (1件): 菅 隆彦
公報種別:公開公報
出願番号(国際出願番号):特願2005-145588
公開番号(公開出願番号):特開2006-320997
出願日: 2005年05月18日
公開日(公表日): 2006年11月30日
要約:
【課題】知能ロボットが行動方策獲得のため学習を行った環境と学習後の環境が外乱の存在によって異なる場合でも、その外乱の影響を考慮し、行動主体が適切な行動方策を選択できるようなロボット行動選択装置及び該方法の提供。 【解決手段】学習時の環境下、及び学習後の行動選択時の環境下の環境状態を認識する状態認識部1と、学習時において、状態と行動により導き出される報酬の情報を蓄積する学習部2と、知能ロボットに対する強化学習の環境下と学習後の行動選択時の環境下との差異である外乱を計測し2つの環境間の変化量として導き出す変化量算出部3と、学習部と変化量算出部3から外乱の影響を踏まえた上での行動における適切な行動方策を選択する行動選択部4とでコンピュータの各機能部として構成される特徴的構成手段の採用。 【選択図】図1
請求項(抜粋):
マルコフ決定過程に従う環境中において強化学習を実施した知能ロボットが、学習後の環境下において行動を選択するとき、学習時と学習後の環境に違いがあった場合でも適切な行動を選択するロボット行動選択装置であって、 前記強化学習時の環境と前記強化学習後の行動選択環境の状態を各種モニタセンサ、計測器にて認識する状態認識部と、 前記強化学習時の環境における、前記知能ロボットがとりうる動作を当該知能ロボットの状態と行動を評価し、報酬としてメモリーに更新可能に蓄積する学習部と、 前記状態認識部において検出された前記強化学習時の環境と、前記行動選択環境との差である外乱を2つの環境間の変化量ベクトルとして算出する変化量算出部と、 前記学習部及び当該変化量算出部から前記外乱による当該知能ロボットの状態に対する影響を予測し適切な行動を選択する行動選択部と、をコンピュータの各機能部として具備する、 ことを特徴とする、ロボット行動選択装置。
IPC (1件):
B25J 13/00
FI (1件):
B25J13/00 Z
Fターム (7件):
3C007CS08 ,  3C007KS40 ,  3C007LW12 ,  3C007WA16 ,  3C007WA27 ,  3C007WB14 ,  3C007WB16
引用特許:
出願人引用 (5件)
全件表示
審査官引用 (5件)
全件表示

前のページに戻る