抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
実世界問題に対する多くのオフポリシー強化学習アルゴリズムを適用するための中心課題は,重要度サンプリングによって導入された分散である。オフポリシー学習において,エージェントは実行されるものとは異なる政策について学習する。差重要度サンプリング比率を説明するためにしばしば用いられるが,アルゴリズムにおける分散を増加させ,学習速度を低減することができる。重要度サンプリングの幾つかの変動が,分散を減らすために提案され,決定上重要度サンプリングが最もポピュラーである。しかし,文献におけるほとんどのオフポリシーアルゴリズムに対する更新規則は,微妙な方法での意思決定重要度サンプリングから離れている。それらはTDターゲットの代わりに全TD誤差を修正する。本研究では,このわずかな変化がTDターゲットに対する制御変量として解釈でき,分散を低減し,性能を改善する方法を示した。広範囲のアルゴリズムにわたる実験は,この微妙な修正が性能の改善をもたらすことを示した。【JST・京大機械翻訳】