ランダム遅延による強化学習【JST・京大機械翻訳】

Ramstedt Simon; Bouteiller Yann; Beltrame Giovanni; Pal Christopher; Binas Jonathan

プレプリント

J-GLOBAL ID：202202221111738018 整理番号：21P0052774

ランダム遅延による強化学習【JST・京大機械翻訳】

Reinforcement Learning with Random Delays

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (5件)： , , , ,
資料名：
発行年： 2020年10月06日プレプリントサーバーでの情報更新日： 2021年05月04日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

行動と観測遅延は,遠隔制御シナリオのような多くの強化学習アプリケーションにおいて一般的に発生する。ランダムに遅延した環境の解剖学を研究し,後視における部分再サンプリング軌跡断片がオフポリシー多段階値推定を可能にすることを示した。この原理を適用して,遅延を持つ環境において著しく優れた性能を有するソフトアクター-批評に基づくアルゴリズムであるDelay-Correcting Actor-Crit(DCAC)を導いた。これは理論的に示され,MuJoCo連続制御ベンチマークの遅延増強バージョンで実際に実証された。【JST・京大機械翻訳】

, , , , ,
, 【Automatic Indexing@JST】

人工知能

前のページに戻る