プレプリント
J-GLOBAL ID:202202219537095489   整理番号:21P0061686

確率的変分不等式のための簡単で最適な方法,II:強化学習におけるMarkov雑音と政策評価【JST・京大機械翻訳】

Simple and optimal methods for stochastic variational inequalities, II: Markovian noise and policy evaluation in reinforcement learning
著者 (3件):
資料名:
発行年: 2020年11月14日  プレプリントサーバーでの情報更新日: 2021年08月13日
JST資料番号: O7000B  資料種別: プレプリント
記事区分: プレプリント  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
本論文の焦点は,Markov雑音の下での確率的変分不等式(VI)である。著者らのアルゴリズム開発の顕著な応用は,強化学習における確率的政策評価問題である。文献の事前調査では,確率的サブ勾配降下により動機づけられた非平滑有限時間解析を採用することによる時間差(TD)学習に焦点を当て,ある限界を導いた。これらは,アプリオリ定義ユークリッドボールへの射影を含む修正TDアルゴリズムを解析する要求を包含し,非最適収束速度を達成し,並列実装の有益な効果を導く明確な方法がない。本アプローチは,確率的VIsのより広い文脈において,特に確率的政策評価に来るとき,これらの欠点を修復する。著者らは,その単純性を維持する元のバージョンによって動機づけられた多様な簡単なTD学習型アルゴリズムを開発し,一方,非漸近解析の観点から明確な利点を提供した。最初に,並列実装から利益を得ることができる標準TDアルゴリズムの改善された解析を提供した。次に,確率的反復の周期的更新を含む条件付きTDアルゴリズム(CTD)のバージョンを提示し,それによりバイアスを低減し,従って反復複雑度を改善した。これは,CTDの要素と随伴論文の確率的演算子外挿法を組み合わせた高速TD(FTD)アルゴリズムをもたらした。新しいインデックスリセット政策FTDは,最良の既知の収束速度を示した。また,1に近い割引因子に特に適したアルゴリズムのロバストバージョンを考案した。【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (1件):
分類
JSTが定めた文献の分類名称とコードです
人工知能 
タイトルに関連する用語 (5件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る