能動的探索なしの強化学習に基づく制御ポリシー学習及び車両制御方法

発明者：
出願人/特許権者：
代理人 (5件)：青木篤 , 三橋真二 , 鶴田準一 , 伊藤公一 , 関根宣夫
公報種別：公開公報
出願番号（国際出願番号）：特願2018-091189
公開番号（公開出願番号）：特開2019-031268
出願日： 2018年05月10日
公開日（公表日）： 2019年02月28日
要約：

【課題】車両の操作を行なう目的で車両を自律的に制御するためのコンピュータ実装型方法を提供する。【解決手段】方法は、最低予想累積コストで車両の操作を実施する目的で車両を制御するように構成された制御ポリシーを学習するために、車両の操作に関連する受動的に収集されたデータに対して、受動的actor-critic強化学習方法を適用するステップと、車両の操作を行なうために制御ポリシーにしたがって車両を制御するステップと、を含む。【選択図】図6

請求項（抜粋）：

車両の操作を行なう目的で車両を自律的に制御するコンピュータ実装型の方法において、最低予想累積コストで前記車両の操作を実施すべく前記車両を制御するように構成された制御ポリシーを学習するために、前記車両の操作に関連する受動的に収集されたデータに対して、受動的actor-critic強化学習方法を適用するステップと、前記車両の操作を行なうべく前記制御ポリシーにしたがって前記車両を制御するステップと、を含む方法。

IPC (4件)：

B60W 50/00 , B60W 30/00 , B60W 30/10 , G06N 20/00

FI (4件)：

B60W50/00 , B60W30/00 , B60W30/10 , G06N99/00 150

Fターム (33件)：

3D241BA02 , 3D241BA11 , 3D241BA12 , 3D241BA15 , 3D241BA41 , 3D241BB16 , 3D241BB43 , 3D241BB46 , 3D241CA06 , 3D241CC02 , 3D241CC08 , 3D241CC17 , 3D241CD01 , 3D241CD22 , 3D241CE02 , 3D241CE03 , 3D241CE04 , 3D241CE05 , 3D241CE08 , 3D241CE09 , 3D241DA52Z , 3D241DB01Z , 3D241DB05Z , 3D241DB09Z , 3D241DB10Z , 3D241DB12Z , 3D241DB13Z , 3D241DB14Z , 3D241DB15Z , 3D241DB16Z , 3D241DB32Z , 3D241DC26Z , 3D241DC41Z

引用特許：

審査官引用 (1件)

環境変化装置及び行動指針情報生成提示装置
公報種別：公開公報出願番号：特願2003-144192 出願人：株式会社豊田中央研究所, トヨタ自動車株式会社, 学校法人トヨタ学園

前のページに戻る