リスクを回避するロバストな敵対強化学習【JST・京大機械翻訳】

Pan Xinlei; Seita Daniel; Gao Yang; Canny John

文献

J-GLOBAL ID：201902264672113811 整理番号：19A1961849

リスクを回避するロバストな敵対強化学習【JST・京大機械翻訳】

Risk Averse Robust Adversarial Reinforcement Learning

出版者サイト複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=19A1961849&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=19A1961849&from=J-GLOBAL&jstjournalNo=W2441A") }}

著者 (4件)： , , ,
資料名：
巻： 2019 号： ICRA ページ： 8522-8528 発行年： 2019年
JST資料番号： W2441A 資料種別：会議録 (C)
記事区分：原著論文発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

深い強化学習は,コンピュータゲームとロボット制御タスクの解決において最近著しい進歩を遂げた。しかし,知られている問題は,政策が訓練環境に適合し,自動車事故のようなまれで壊滅的なイベントを避けることができないということである。強化学習アルゴリズムのロバスト性を改善するための古典的手法は,ランダム化された環境の集合上で訓練することであるが,このアプローチは一般的な状況に対してのみ保護する。最近,ロバストな敵強化学習(RARl)が開発され,訓練された敵によるランダムで系統的な摂動の効率的な応用が可能になった。RARlの限界は,期待される制御目的だけが最適化されることである。リスクの明示的モデリングまたは最適化はない。従って,エージェントは,期待される目的に対するそれらの影響を除いて,壊滅的イベント(すなわち,異常に大きな負の報酬を誘導する)の確率を考慮しない。本論文では,リスク回避プロタアゴニストとリスク探索敵を用いて,リスク回避型ロバスト敵強化学習(RARARL)を導入した。自己駆動車両制御装置に関する著者らのアプローチを試験した。価値関数の分散としてリスクをモデル化するために,政策ネットワークの集合を用いた。著者らは,リスク回避エージェントが,リスク探索敵を扱うためにより良く装備されていることを実験を通して示し,また,攻撃者なしで訓練されたエージェントと比較して,実質的に少ない衝突を経験した。補助材料はhttps://sites.google.com/view/rararlで利用可能である。Copyright 2019 The Institute of Electrical and Electronics Engineers, Inc. All rights reserved. Translated from English into Japanese by JST.【JST・京大機械翻訳】

, , , , , , , , ,
, , , , , 【Automatic Indexing@JST】

図形・画像処理一般

, , , ,

前のページに戻る