オフポリシー時間差法における重要度サンプリング配置【JST・京大機械翻訳】

Graves Eric; Ghiassian Sina

プレプリント

J-GLOBAL ID：202202218185146197 整理番号：22P0306822

オフポリシー時間差法における重要度サンプリング配置【JST・京大機械翻訳】

Importance Sampling Placement in Off-Policy Temporal-Difference Methods

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (2件)： ,
資料名：
発行年： 2022年03月18日プレプリントサーバーでの情報更新日： 2022年06月16日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

実世界問題に対する多くのオフポリシー強化学習アルゴリズムを適用するための中心課題は,重要度サンプリングによって導入された分散である。オフポリシー学習において,エージェントは実行されるものとは異なる政策について学習する。差重要度サンプリング比率を説明するためにしばしば用いられるが,アルゴリズムにおける分散を増加させ,学習速度を低減することができる。重要度サンプリングの幾つかの変動が,分散を減らすために提案され,決定上重要度サンプリングが最もポピュラーである。しかし,文献におけるほとんどのオフポリシーアルゴリズムに対する更新規則は,微妙な方法での意思決定重要度サンプリングから離れている。それらはTDターゲットの代わりに全TD誤差を修正する。本研究では,このわずかな変化がTDターゲットに対する制御変量として解釈でき,分散を低減し,性能を改善する方法を示した。広範囲のアルゴリズムにわたる実験は,この微妙な修正が性能の改善をもたらすことを示した。【JST・京大機械翻訳】

, , , , , , ,
, , , 【Automatic Indexing@JST】

システム・制御理論一般 , 人工知能

前のページに戻る