特許
J-GLOBAL ID:200903064059485770
階層型エージェント学習方法およびシステム
発明者:
,
出願人/特許権者:
代理人 (9件):
中村 稔
, 大塚 文昭
, 熊倉 禎男
, 宍戸 嘉一
, 今城 俊夫
, 小川 信夫
, 村社 厚夫
, 西島 孝喜
, 箱田 篤
公報種別:公開公報
出願番号(国際出願番号):特願2003-286884
公開番号(公開出願番号):特開2005-056185
出願日: 2003年08月05日
公開日(公表日): 2005年03月03日
要約:
【課題】 学習に必要な評価信号に空間的なあいまいさと時間的なあいまいさの二つが存在する場合に、あいまいさを吸収することが可能なシステムおよび制御方法を提供する。【解決手段】 コンピュータによって機能する、少なくとも、教育エージェント、学習エージェント、および中間エージェントを含み、所定の時刻における、各エージェントの認識する位置、各エージェント自身の大きさ、および、学習エージェントが通過可能な道幅と、客観的な各エージェントの位置、各エージェント自身の大きさ、および、学習エージェントが通過可能な道幅、との間にそれぞれ、ずれが存在するシステムにおいて、各エージェントが自律的に学習することによって、学習エージェントをスタート位置からゴール位置まで制御する階層型エージェント学習方法。【選択図】 図1
請求項(抜粋):
コンピュータによって機能する、少なくとも、教育エージェント、学習エージェント、および中間エージェントを含み、所定の時刻における、各エージェントの認識する位置、各エージェント自身の大きさ、および、学習エージェントが通過可能な道幅と、客観的な各エージェントの位置、各エージェント自身の大きさ、および、学習エージェントが通過可能な道幅、との間にそれぞれ、ずれが存在するシステムにおいて、各エージェントが自律的に学習することによって、前記学習エージェントをスタート位置からゴール位置まで制御する方法であって、
学習エージェントが、自己が採るべき行動を意思決定する学習エージェント意思決定工程(1120)と、
教育エージェントが、自己が採るべき行動を意思決定する教育エージェント意思決定工程(1120)と、
前記学習エージェントの意思決定と前記教育エージェントの意思決定を、それぞれ前記学習エージェントと前記教育エージェントが、中間エージェントに送る行動送信工程(130)と、
前記学習エージェントの意思決定と前記教育エージェントの意思決定を同じかどうかを中間エージェントが判断する意思決定工程(1140)と、
前記学習エージェントの意思決定と前記教育エージェントの意思決定が同じ場合には、前記学習エージェントが意思決定した採るべき行動を、そして、前記学習エージェントの意思決定と前記教育エージェントの意思決定が異なる場合には、中間エージェントが規則に従って、採るべき新たな行動を、前記中間エージェントが、前記学習エージェントに送る行動指示工程(1150)と、
前記学習エージェントが前記採るべき行動を実行する、行動実行工程(1160)と、
前記学習エージェント、前記中間エージェント、前記教育エージェントがそれぞれ、前記学習エージェントがゴールに到達したか否かを判断する、ゴール到達判断工程(1190)と、
指定されたステップ数内にゴールに到達していない場合、前記学習エージェント及び前記教育エージェントが強化学習を行う、それぞれ、学習エージェント強化学習実行工程(1180)および教育エージェント強化学習実行工程(1180)と、
が含まれる、階層型エージェント学習方法。
IPC (3件):
G05D1/02
, G05B13/02
, G06N3/00
FI (3件):
G05D1/02 H
, G05B13/02 L
, G06N3/00 550E
Fターム (11件):
5H004GA40
, 5H004GB16
, 5H004HA07
, 5H004KD61
, 5H301AA01
, 5H301AA10
, 5H301BB14
, 5H301CC06
, 5H301LL01
, 5H301LL06
, 5H301LL11
引用特許:
前のページに戻る