Pat
J-GLOBAL ID:201903018663557792

行動決定システム及び自動運転制御装置

Inventor:
Applicant, Patent owner:
Agent (1): 特許業務法人創成国際特許事務所
Gazette classification:公開公報
Application number (International application number):2017215645
Publication number (International publication number):2019087096
Application date: Nov. 08, 2017
Publication date: Jun. 06, 2019
Summary:
【課題】強化学習法を用いる場合において、学習の安定性を確保しながら、学習速度を向上させることができる行動決定システム及び自動運転制御装置を提供する。【解決手段】行動決定システム10は、状態sを用いて、行動価値関数Qを算出し、行動価値関数Qを用いて、最適な行動aを決定する。行動価値関数QのTD誤差の2乗項と、行動価値関数Qとターゲット値Tとの差分の2乗項とを含むように定義された誤差関数Lが最小になるように、行動価値関数Q算出用のニューラルネットワークのパラメータθを更新する。【選択図】図2
Claim (excerpt):
強化学習法を用いてエージェントによる行動を決定する行動決定システムにおいて、 環境から前記エージェントに入力される情報を用いて、第1価値関数を算出する第1価値関数算出手段と、 当該第1価値関数を用いて、前記エージェントによる最適な行動を決定する行動決定手段と、 前記第1価値関数のTD誤差と、前記第1価値関数と当該第1価値関数と異なる第2価値関数との差分と、を含むように定義された誤差関数が最小になるように、前記第1価値関数を更新する第1価値関数更新手段と、 を備えることを特徴とする行動決定システム。
IPC (7):
G06N 20/00 ,  G06N 3/08 ,  B60W 30/00 ,  B60W 40/04 ,  B60W 40/10 ,  B62D 6/00 ,  G05B 13/02
FI (7):
G06N99/00 150 ,  G06N3/08 ,  B60W30/00 ,  B60W40/04 ,  B60W40/10 ,  B62D6/00 ,  G05B13/02 J
F-Term (47):
3D232CC20 ,  3D232DA03 ,  3D232DA23 ,  3D232DA25 ,  3D232DA29 ,  3D232DA33 ,  3D232DA76 ,  3D232DA84 ,  3D232DC33 ,  3D232DC34 ,  3D232DD02 ,  3D232DD05 ,  3D232DD12 ,  3D232DD13 ,  3D232DD15 ,  3D232EB04 ,  3D232EC23 ,  3D232EC34 ,  3D232FF07 ,  3D232GG01 ,  3D241AA66 ,  3D241AA71 ,  3D241AB01 ,  3D241AC30 ,  3D241AD51 ,  3D241BA00 ,  3D241BA24 ,  3D241CD10 ,  3D241CE08 ,  3D241DA52Z ,  3D241DB01Z ,  3D241DB02Z ,  3D241DB05Z ,  3D241DB06Z ,  3D241DB12Z ,  3D241DC01Z ,  3D241DC02Z ,  3D241DC03Z ,  3D241DC26Z ,  3D241DC37Z ,  5H004GA08 ,  5H004GB12 ,  5H004HB07 ,  5H004HB08 ,  5H004HB09 ,  5H004KC09 ,  5H004KD31
Patent cited by the Patent:
Cited by applicant (2) Cited by examiner (2)

Return to Previous Page