抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
本論文は,政策勾配法として知られている強化学習アルゴリズムのクラスを研究した。政策勾配法は,政策パラメータに関する期待利益の勾配を推定することにより,政策の性能を最適化する。政策勾配法を適用するコア課題の一つは,この勾配の正確な推定を得ることである。ほとんどの政策勾配法は,この勾配を推定するためにモンテカルロサンプリングに依存している。限られた数の環境ステップしか収集できない場合には,モンテカルロ政策勾配推定はサンプリング誤差-サンプルが期待されるよりも重いか少ないかを受ける可能性がある。本論文では,不正確なモンテカルロ重みを補正するサンプリング誤り訂正ポリシー勾配推定器を導入した。著者らのアプローチは,実際にデータを生成した政策よりも異なる政策によって生成されたように,観測データを処理する。次に,不正確なモンテカルロ重みを修正するプロセスにおいて,2つの間の重要性サンプリングを用いた。限定された仮定の下で,この勾配推定器はモンテカルロ勾配推定器よりも低い分散を持つことを示した。理論的仮定が成立しない場合においても,標準モンテカルロサンプリングと比較して,2つのポリシー勾配法の学習速度を改善することを実験的に示した。Please refer to this article’s citation page on the publisher website for specific rights information. Translated from English into Japanese by JST.【JST・京大機械翻訳】