Pat
J-GLOBAL ID:201903003287911680

学習システム及び学習方法

Inventor:
Applicant, Patent owner:
Agent (1): 名古屋国際特許業務法人
Gazette classification:公開公報
Application number (International application number):2017122289
Publication number (International publication number):2019005834
Application date: Jun. 22, 2017
Publication date: Jan. 17, 2019
Summary:
【課題】動的環境下において、安全かつ最適な行動系列を獲得可能な学習システム及び学習方法を提供する。【解決手段】ロボット10の状態の初期値と障害物30の位置とからなる複数のコンディションのそれぞれについて、最適制御によりロボット10が障害物30を回避して目標地Taへ到達する軌跡Trを生成す出力生成部と、コンディションごとに、最適制御による軌跡Trの生成の収束性を判定する判定部と、収束しないと判定されたコンディションについて、例外制御による軌跡Trを生成する例外生成部と、ニューラルネットワークの汎化性能を利用して、コンディションごとに生成された軌跡Trを統合する統合部と、統合部による統合結果を最適制御にフィードバックして、前記コンディションごとの軌跡Trの生成と、コンディションごとに生成された軌跡Trの統合とを、予め設定された学習回数繰り返して学習する学習部と、を備える。【選択図】図7
Claim (excerpt):
ロボット(10)の状態と、前記ロボットの観察画像とから、前記ロボットの制御信号を生成する学習システム(100)であって、 前記ロボットの状態の初期値と障害物(30)の互いに異なる位置とからなる予め設定された複数のコンディションのそれぞれについて、最適制御により前記ロボットが前記障害物を回避して目標位置へ到達する制御出力を生成するように構成された出力生成部(50,S30,S120)と、 前記コンディションごとに、前記最適制御による制御出力の生成の収束性を判定するように構成された判定部(50)と、 前記判定部により収束しないと判定された前記コンディションについて、例外制御による制御出力を生成するように構成された例外生成部(50,S50)と、 ニューラルネットワークの汎化性能を利用して、前記コンディションごとに生成された前記制御出力を統合するように構成された統合部(50,S80)と、 前記統合部による統合結果を前記最適制御にフィードバックして、前記コンディションごとの前記制御出力の生成と、前記コンディションごとに生成された前記制御出力の統合とを、予め設定された学習回数繰り返して学習するように構成された学習部(50,S90)と、 を備える、学習システム。
IPC (3):
B25J 13/00 ,  G06N 3/08 ,  G05B 13/02
FI (3):
B25J13/00 Z ,  G06N3/08 ,  G05B13/02 L
F-Term (15):
3C707KS17 ,  3C707KT01 ,  3C707KT06 ,  3C707LT01 ,  3C707LV12 ,  3C707LW08 ,  3C707LW12 ,  3C707LW15 ,  3C707MS05 ,  5H004GA08 ,  5H004GB16 ,  5H004HA07 ,  5H004HB07 ,  5H004KC01 ,  5H004KD31
Patent cited by the Patent:
Cited by examiner (3)
Article cited by the Patent:
Cited by examiner (1)
  • End-to-End Training of Deep Visuomotor Policies

Return to Previous Page