ソフトマックス深二重決定性ポリシー勾配【JST・京大機械翻訳】

Pan Ling; Cai Qingpeng; Huang Longbo

プレプリント

J-GLOBAL ID：202202203052771865 整理番号：22P0201516

ソフトマックス深二重決定性ポリシー勾配【JST・京大機械翻訳】

Softmax Deep Double Deterministic Policy Gradients

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (3件)： , ,
資料名：
発行年： 2020年10月18日プレプリントサーバーでの情報更新日： 2020年10月18日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

連続的制御,深い決定論的ポリシー勾配(DDPG)のための広く使用されたアクター-批評強化学習アルゴリズムは,性能に否定的に影響を及ぼすことができる過大評価問題に悩まされる。最先端のTwin Delayed Deep Depective Pelective Process(TD3)アルゴリズムは,過大推定問題を緩和するが,大きな過小評価バイアスをもたらすことができる。本論文では,連続制御における値関数推定のためのBoltzmannソフトマックス演算子の使用を提案した。まず,連続動作空間におけるソフトマックス演算子を理論的に解析した。次に,アクター-批評アルゴリズムにおけるソフトマックス演算子の重要な特性を明らかにし,すなわち,最適化景観を平滑化するのを助け,それはオペレータの利点に新しい光を投げかける。また,単一および二重推定器上でソフトマックス演算子を構築することにより,2つの新しいアルゴリズム,Softmax Deep Dend Detective Pelects(SD2)およびSoftmax Deep Double Dual Detective Pows(SD3)を設計し,それは過大評価および過小評価バイアスを効果的に改善することができた。挑戦的な連続制御タスクに関する広範な実験を行い,結果は,SD3が最先端の方法より優れていることを示した。【JST・京大機械翻訳】

, , , , , , , , , , ,
, , , 【Automatic Indexing@JST】

人工知能

前のページに戻る