特許
J-GLOBAL ID:201903008332369532

能動的探索なしの強化学習に基づく制御ポリシー学習及び車両制御方法

発明者:
出願人/特許権者:
代理人 (5件): 青木 篤 ,  三橋 真二 ,  鶴田 準一 ,  伊藤 公一 ,  関根 宣夫
公報種別:公開公報
出願番号(国際出願番号):特願2018-091189
公開番号(公開出願番号):特開2019-031268
出願日: 2018年05月10日
公開日(公表日): 2019年02月28日
要約:
【課題】車両の操作を行なう目的で車両を自律的に制御するためのコンピュータ実装型方法を提供する。【解決手段】方法は、最低予想累積コストで車両の操作を実施する目的で車両を制御するように構成された制御ポリシーを学習するために、車両の操作に関連する受動的に収集されたデータに対して、受動的actor-critic強化学習方法を適用するステップと、車両の操作を行なうために制御ポリシーにしたがって車両を制御するステップと、を含む。【選択図】図6
請求項(抜粋):
車両の操作を行なう目的で車両を自律的に制御するコンピュータ実装型の方法において、 最低予想累積コストで前記車両の操作を実施すべく前記車両を制御するように構成された制御ポリシーを学習するために、前記車両の操作に関連する受動的に収集されたデータに対して、受動的actor-critic強化学習方法を適用するステップと、 前記車両の操作を行なうべく前記制御ポリシーにしたがって前記車両を制御するステップと、を含む方法。
IPC (4件):
B60W 50/00 ,  B60W 30/00 ,  B60W 30/10 ,  G06N 20/00
FI (4件):
B60W50/00 ,  B60W30/00 ,  B60W30/10 ,  G06N99/00 150
Fターム (33件):
3D241BA02 ,  3D241BA11 ,  3D241BA12 ,  3D241BA15 ,  3D241BA41 ,  3D241BB16 ,  3D241BB43 ,  3D241BB46 ,  3D241CA06 ,  3D241CC02 ,  3D241CC08 ,  3D241CC17 ,  3D241CD01 ,  3D241CD22 ,  3D241CE02 ,  3D241CE03 ,  3D241CE04 ,  3D241CE05 ,  3D241CE08 ,  3D241CE09 ,  3D241DA52Z ,  3D241DB01Z ,  3D241DB05Z ,  3D241DB09Z ,  3D241DB10Z ,  3D241DB12Z ,  3D241DB13Z ,  3D241DB14Z ,  3D241DB15Z ,  3D241DB16Z ,  3D241DB32Z ,  3D241DC26Z ,  3D241DC41Z
引用特許:
審査官引用 (1件)

前のページに戻る