文献
J-GLOBAL ID:201902244407409864   整理番号:19A2922018

行列運動量確率近似とQ学習への応用について【JST・京大機械翻訳】

On Matrix Momentum Stochastic Approximation and Applications to Q-learning
著者 (3件):
資料名:
巻: 2019  号: Allerton  ページ: 749-756  発行年: 2019年 
JST資料番号: W2441A  資料種別: 会議録 (C)
記事区分: 原著論文  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
確率近似(SA)アルゴリズムは,機能の雑音パラメータ化ファミリーの期待値として表現できる関数の根を得るために使用される再帰技術である。本論文では,2つの新しいSAアルゴリズムを紹介した。1)PolSA,特に設計されたマトリックス運動量によるPolyakの運動量技術の拡張,2)NESA,Nesterovの加速法の変種と見なすことができるか,またはPolSAの簡素化。SAアルゴリズムの収束速度は良く理解されている。特別な条件下で,パラメータ推定の平均二乗誤差はσ2/n+o(1/n)により制限され,σ2≧0は同定可能な定数である。これらの条件が失敗すれば,速度は典型的にサブ線形である。線形速度を保証する2つの良く知られたSAアルゴリズムがあり,分散の最小値,σ2:Rupt-Polyak平均化技術,および確率的Newton-Raphson(SNR)アルゴリズムがある。ここでは,温和な技術的仮定の下で,PolSAアルゴリズムもこの最適性基準を達成することを実証した。この結果は,新しい結合議論により確立された。PolSAアルゴリズムから得られたパラメータ推定値は,O(1/n2)レートで最適分散(計算的により高価な)SNRアルゴリズムと結合することを示した。新たに提案したアルゴリズムを,新しいQ学習アルゴリズムを得るための強化学習設定に拡張し,数値結果により,PolSAとSNRの結合を確認した。Copyright 2020 The Institute of Electrical and Electronics Engineers, Inc. All rights reserved. Translated from English into Japanese by JST.【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (1件):
分類
JSTが定めた文献の分類名称とコードです
図形・画像処理一般 
タイトルに関連する用語 (5件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る