文献
J-GLOBAL ID:202202223544661964   整理番号:22A0286740

非同期Q学習のサンプル複雑性:よりシャープな解析と分散低減【JST・京大機械翻訳】

Sample Complexity of Asynchronous Q-Learning: Sharper Analysis and Variance Reduction
著者 (5件):
資料名:
巻: 68  号:ページ: 448-473  発行年: 2022年 
JST資料番号: C0231A  ISSN: 0018-9448  CODEN: IETTAW  資料種別: 逐次刊行物 (A)
記事区分: 原著論文  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
非同期Q学習は,行動政策により誘導したMarkovサンプルの単一軌跡に基づいて,Markov決定プロセス(MDP)の最適動作値関数(またはQ関数)を学習することを目的とする。状態空間Sと動作空間Aによるγ-ディスカウントMDPに焦点を合わせて,古典的非同期Q-ラーニング のl_∞ベースサンプル複雑性,すなわち,Q-関数ε′′の入力的ε-正確な推定を得るために必要なサンプル数は,適切な一定の学習速度を採用するならば,いくつかの対数的因子まで,/1{μ_{min}(1-γ){5}{{2}→frac{t_{mix}{μ_{min}(1-γ)}アップの次数で,ほとんど,あることを示した。”P_L”は,L_∞ベースの試料の複雑さを,ほぼ1{μ_{min}(1-γ){5}{{2}→frac{t_{mix{μ_{min}(1-γ)}アップの順番に与えた。ここで,t_mixとμ_minは,混合時間とサンプル軌道の最小状態-作用占有確率をそれぞれ示した。この限界の第一項は,軌道の定常分布から引き出される独立サンプルと同期事例のサンプル複雑性に整合した。第2項は,Markov軌道の経験的分布に対して取られたコストを反映し,定常状態に達し,これは,非常に始めに起こり,アルゴリズム実行として不死化する。必然的に,上記の境界は,すべてのシナリオに対して少なくとも|S||A|の因子によって最先端の結果で,また,任意の十分に小さい精度レベルεに対して少なくともt_mix|S||A|の因子によって改善した。さらに,有効水平1/1-γ上のスケーリングは,分散低減によって改善できることを実証した。Copyright 2022 The Institute of Electrical and Electronics Engineers, Inc. All rights reserved. Translated from English into Japanese by JST.【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (2件):
分類
JSTが定めた文献の分類名称とコードです
人工知能  ,  システム・制御理論一般 

前のページに戻る