文献
J-GLOBAL ID:202002216373626696   整理番号:20A1117736

ポリシー勾配学習におけるサンプリング誤差の低減【JST・京大機械翻訳】

Reducing Sampling Error in Policy Gradient Learning
著者 (2件):
資料名:
号: AAMAS ’19  ページ: 1016-1024  発行年: 2019年 
JST資料番号: D0698C  資料種別: 会議録 (C)
記事区分: 原著論文  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
本論文は,政策勾配法として知られている強化学習アルゴリズムのクラスを研究した。政策勾配法は,政策パラメータに関する期待利益の勾配を推定することにより,政策の性能を最適化する。政策勾配法を適用するコア課題の一つは,この勾配の正確な推定を得ることである。ほとんどの政策勾配法は,この勾配を推定するためにモンテカルロサンプリングに依存している。限られた数の環境ステップしか収集できない場合には,モンテカルロ政策勾配推定はサンプリング誤差-サンプルが期待されるよりも重いか少ないかを受ける可能性がある。本論文では,不正確なモンテカルロ重みを補正するサンプリング誤り訂正ポリシー勾配推定器を導入した。著者らのアプローチは,実際にデータを生成した政策よりも異なる政策によって生成されたように,観測データを処理する。次に,不正確なモンテカルロ重みを修正するプロセスにおいて,2つの間の重要性サンプリングを用いた。限定された仮定の下で,この勾配推定器はモンテカルロ勾配推定器よりも低い分散を持つことを示した。理論的仮定が成立しない場合においても,標準モンテカルロサンプリングと比較して,2つのポリシー勾配法の学習速度を改善することを実験的に示した。Please refer to this article’s citation page on the publisher website for specific rights information. Translated from English into Japanese by JST.【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (3件):
分類
JSTが定めた文献の分類名称とコードです
人工知能  ,  数値計算  ,  システム・制御理論一般 
タイトルに関連する用語 (3件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る