プレプリント
J-GLOBAL ID:202202218185146197   整理番号:22P0306822

オフポリシー時間差法における重要度サンプリング配置【JST・京大機械翻訳】

Importance Sampling Placement in Off-Policy Temporal-Difference Methods
著者 (2件):
資料名:
発行年: 2022年03月18日  プレプリントサーバーでの情報更新日: 2022年06月16日
JST資料番号: O7000B  資料種別: プレプリント
記事区分: プレプリント  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
実世界問題に対する多くのオフポリシー強化学習アルゴリズムを適用するための中心課題は,重要度サンプリングによって導入された分散である。オフポリシー学習において,エージェントは実行されるものとは異なる政策について学習する。差重要度サンプリング比率を説明するためにしばしば用いられるが,アルゴリズムにおける分散を増加させ,学習速度を低減することができる。重要度サンプリングの幾つかの変動が,分散を減らすために提案され,決定上重要度サンプリングが最もポピュラーである。しかし,文献におけるほとんどのオフポリシーアルゴリズムに対する更新規則は,微妙な方法での意思決定重要度サンプリングから離れている。それらはTDターゲットの代わりに全TD誤差を修正する。本研究では,このわずかな変化がTDターゲットに対する制御変量として解釈でき,分散を低減し,性能を改善する方法を示した。広範囲のアルゴリズムにわたる実験は,この微妙な修正が性能の改善をもたらすことを示した。【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (2件):
分類
JSTが定めた文献の分類名称とコードです
システム・制御理論一般  ,  人工知能 
タイトルに関連する用語 (2件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る