階層型エージェント学習方法およびシステム

発明者： ,
出願人/特許権者：
代理人 (9件)：中村稔 , 大塚文昭 , 熊倉禎男 , 宍戸嘉一 , 今城俊夫 , 小川信夫 , 村社厚夫 , 西島孝喜 , 箱田篤
公報種別：公開公報
出願番号（国際出願番号）：特願2003-286884
公開番号（公開出願番号）：特開2005-056185
出願日： 2003年08月05日
公開日（公表日）： 2005年03月03日
要約：

【課題】学習に必要な評価信号に空間的なあいまいさと時間的なあいまいさの二つが存在する場合に、あいまいさを吸収することが可能なシステムおよび制御方法を提供する。【解決手段】コンピュータによって機能する、少なくとも、教育エージェント、学習エージェント、および中間エージェントを含み、所定の時刻における、各エージェントの認識する位置、各エージェント自身の大きさ、および、学習エージェントが通過可能な道幅と、客観的な各エージェントの位置、各エージェント自身の大きさ、および、学習エージェントが通過可能な道幅、との間にそれぞれ、ずれが存在するシステムにおいて、各エージェントが自律的に学習することによって、学習エージェントをスタート位置からゴール位置まで制御する階層型エージェント学習方法。【選択図】図1

請求項（抜粋）：

コンピュータによって機能する、少なくとも、教育エージェント、学習エージェント、および中間エージェントを含み、所定の時刻における、各エージェントの認識する位置、各エージェント自身の大きさ、および、学習エージェントが通過可能な道幅と、客観的な各エージェントの位置、各エージェント自身の大きさ、および、学習エージェントが通過可能な道幅、との間にそれぞれ、ずれが存在するシステムにおいて、各エージェントが自律的に学習することによって、前記学習エージェントをスタート位置からゴール位置まで制御する方法であって、学習エージェントが、自己が採るべき行動を意思決定する学習エージェント意思決定工程(1120)と、教育エージェントが、自己が採るべき行動を意思決定する教育エージェント意思決定工程(1120)と、前記学習エージェントの意思決定と前記教育エージェントの意思決定を、それぞれ前記学習エージェントと前記教育エージェントが、中間エージェントに送る行動送信工程(130)と、前記学習エージェントの意思決定と前記教育エージェントの意思決定を同じかどうかを中間エージェントが判断する意思決定工程(1140)と、前記学習エージェントの意思決定と前記教育エージェントの意思決定が同じ場合には、前記学習エージェントが意思決定した採るべき行動を、そして、前記学習エージェントの意思決定と前記教育エージェントの意思決定が異なる場合には、中間エージェントが規則に従って、採るべき新たな行動を、前記中間エージェントが、前記学習エージェントに送る行動指示工程(1150)と、前記学習エージェントが前記採るべき行動を実行する、行動実行工程(1160)と、前記学習エージェント、前記中間エージェント、前記教育エージェントがそれぞれ、前記学習エージェントがゴールに到達したか否かを判断する、ゴール到達判断工程(1190)と、指定されたステップ数内にゴールに到達していない場合、前記学習エージェント及び前記教育エージェントが強化学習を行う、それぞれ、学習エージェント強化学習実行工程(1180)および教育エージェント強化学習実行工程(1180)と、が含まれる、階層型エージェント学習方法。

IPC (3件)：

G05D1/02 , G05B13/02 , G06N3/00

FI (3件)：

G05D1/02 H , G05B13/02 L , G06N3/00 550E

Fターム (11件)：

5H004GA40 , 5H004GB16 , 5H004HA07 , 5H004KD61 , 5H301AA01 , 5H301AA10 , 5H301BB14 , 5H301CC06 , 5H301LL01 , 5H301LL06 , 5H301LL11

引用特許：

審査官引用 (3件)

状態空間のオンライン分節装置
公報種別：公開公報出願番号：特願2001-368040 出願人：富士通株式会社
問題解決器、及び記憶媒体
公報種別：公開公報出願番号：特願2000-352343 出願人：富士通株式会社
多層化された状態空間に対する問題解決器
公報種別：公開公報出願番号：特願2001-176788 出願人：富士通株式会社

前のページに戻る