異なる挙動を持つ自律運転のための深層階層強化学習【JST・京大機械翻訳】

Chen Jianyu; Wang Zining; Tomizuka Masayoshi

文献

J-GLOBAL ID：201802238539633587 整理番号：18A1943592

異なる挙動を持つ自律運転のための深層階層強化学習【JST・京大機械翻訳】

Deep Hierarchical Reinforcement Learning for Autonomous Driving with Distinct Behaviors

出版者サイト複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=18A1943592&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=18A1943592&from=J-GLOBAL&jstjournalNo=W2441A") }}

著者 (3件)： , ,
資料名：
巻： 2018 号： IV ページ： 1239-1244 発行年： 2018年
JST資料番号： W2441A 資料種別：会議録 (C)
記事区分：原著論文発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

深い強化学習は,生の画素入力からAtariゲームを行う学習のような領域において最近大きな進歩を遂げている。強化学習のモデルフリー特性は,ハンド符号化複合ポリシーから自由になる。しかしながら,自律運転のような実世界タスクに対しては,異なる挙動を含むいくつかの複雑な逐次意思決定プロセスがある。Delid報酬と平均勾配により,平坦な深い強化学習アルゴリズムが良い政策を学習するのは困難である。本論文では,階層的ニューラルネットワークポリシーを設計し,半Markov決定プロセス(SMDP)時間抽象定式化によりネットワークを訓練するための階層的ポリシー勾配法を提案した。この方法を自律運転における交通光通過シナリオに適用した。そこでは,車両は2つの異なる挙動(例えば,通過と停止)を持ち,その基本的行動(例えば加速度)は対応する挙動に従うべきである。シミュレーションにより,この方法が正しい決定を選択でき,トラヒック光が黄色になると適切に動作することを示した。反対に,平坦な強化学習アルゴリズムは良好な性能を達成できず,大きな分散を示した。さらに,訓練されたニューラルネットワークモジュールは,将来,より多くのシナリオをカバーするために再利用可能である。Copyright 2018 The Institute of Electrical and Electronics Engineers, Inc. All rights reserved. Translated from English into Japanese by JST.【JST・京大機械翻訳】

, , , , , , , , ,
, 【Automatic Indexing@JST】

図形・画像処理一般

, , , ,

前のページに戻る