ネットワーク上の分散強化学習における完全非同期ポリシー評価【JST・京大機械翻訳】

Sha Xingyu; Zhang Jiaqi; You Keyou; Zhang Kaiqing; Basar Tamer

文献

J-GLOBAL ID：202202244015950013 整理番号：22A0428225

ネットワーク上の分散強化学習における完全非同期ポリシー評価【JST・京大機械翻訳】

Fully asynchronous policy evaluation in distributed reinforcement learning over networks

出版者サイト複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=22A0428225&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=22A0428225&from=J-GLOBAL&jstjournalNo=B0208A") }}

著者 (5件)： , , , ,
資料名：
巻： 136 ページ： Null 発行年： 2022年
JST資料番号： B0208A ISSN： 0005-1098 資料種別：逐次刊行物 (A)
記事区分：原著論文発行国：オランダ (NLD) 言語：英語 (EN)

本論文は,有向ピアツーピアネットワーク上の分散強化学習(DisRL)の政策評価問題のための完全非同期方式を提案した。ネットワークの他のノードを待つことなく,各ノードは,その近傍から(おそらく遅延した)情報を用いて任意の時間でその価値関数を局所的に更新できる。これは,ノードが同時に更新するゴシップベースの方式と対照的である。完全非同期設定は,困難なマルチタイムスケール決定問題を含むにもかかわらず,著者らは,新しいインクリメンタル凝集勾配(IAG)ベースの分散アルゴリズムを設計し,そして,c∈(0,1)およびkが全ネットワーク内の更新の総数であるO(ck)の線形速度において,その正確な収束を証明するために,プッシュプル拡張グラフアプローチを開発した。最後に,数値実験は,著者らの方法がノード数に関して直線的にスピードアップして,ストラグラーノードに対してロバストであることを証明した。Copyright 2022 Elsevier B.V., Amsterdam. All rights reserved. Translated from English into Japanese by JST.【JST・京大機械翻訳】

, , , , , , , , ,
, , , , 【Automatic Indexing@JST】

著者キーワード (4件)： , , ,

システム設計・解析

, , ,

前のページに戻る