文献
J-GLOBAL ID:202202241011239721   整理番号:22A0000739

親密性ベース軌道経験リプレイによるアクタークリティック【JST・京大機械翻訳】

Actor-critic with familiarity-based trajectory experience replay
著者 (8件):
資料名:
巻: 582  ページ: 633-647  発行年: 2022年 
JST資料番号: D0636A  ISSN: 0020-0255  CODEN: ISIJBC  資料種別: 逐次刊行物 (A)
記事区分: 原著論文  発行国: オランダ (NLD)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
本論文は,非同期Advantage Actor-Crit(A3C)におけるサンプル非効率性を解決することを目指した。第1に,著者らは,サンプル効率を改善するために,アクター-批評と経験再生を組み合わせた新しいオフポリシーアクター-批評アルゴリズムを設計した。次に,著者らは,軌道経験のための経験再生のサンプリング方法を研究して,サンプリングの確率重量として経験の再生時間の数を使用する親密性ベースの再生機構を提案する。最後に,オフポリシー学習に起因するバイアスを修正するためにGAE-V法を使用した。また,ネットワークを更新するために,オフポリシー学習とポリシー学習を組み合わせる機構を採用することによって,より良い性能を達成した。AtariとMuJoCoベンチマークの結果は,これらの革新の各々がデータ効率と最終性能の両方の改善に寄与することを示した。さらに,この手法は,A3Cと同じ並列特徴と高速カバレッジ速度を保ち,また,探査に関してより良い性能を有した。Copyright 2022 Elsevier B.V., Amsterdam. All rights reserved. Translated from English into Japanese by JST.【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

分類 (1件):
分類
JSTが定めた文献の分類名称とコードです
人工知能 
タイトルに関連する用語 (2件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る