文献
J-GLOBAL ID:202102288711355992   整理番号:21A0578719

優先順位付き経験リプレイのための自己適応優先度補正【JST・京大機械翻訳】

Self-Adaptive Priority Correction for Prioritized Experience Replay
著者 (4件):
資料名:
巻: 10  号: 19  ページ: 6925  発行年: 2020年 
JST資料番号: U7135A  ISSN: 2076-3417  資料種別: 逐次刊行物 (A)
記事区分: 原著論文  発行国: スイス (CHE)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
深層強化学習(DRL)は,一般的人工知能のための有望なアプローチである。しかし,ほとんどのDRL法は,データ非効率性の問題に悩まされている。この問題を軽減するために,DeepMindは,優先経験再生(PER)を提案した。PERはデータ利用を改善するが,その経験メモリ(EM)におけるほとんどのサンプルの優先順位は,データの一部の優先順位が更新されるので,Qネットワークパラメータが更新されるので,今までに外れる。その結果,貯蔵と実際の優先度分布の間の差は次第に増加し,それは深いQ学習(DQL)の勾配にバイアスを導入し,DQLを非理想方向に向けて更新する。本研究では,更新偏差を固定するために,重要度-PER(Imp-PER)と名付けた新しい自己適応優先度補正アルゴリズムを提案した。特に,EMにおけるすべてのデータの実時間微分誤差(TD誤差)の合計を予測した。データは,予測和と最新のエージェントによって計算された実際のTD誤差によって評価される重要性重量によって補正される。非有界重要性重みを制御するために,自己適応打切り閾値による切捨て重要度サンプリングを用いた。Double Deep Q-Network and MuJoCoによるAtari 2600のさまざまなゲームに関する実施した実験は,Imp-PERが,計算コストを増加させることなく,離散状態と連続状態タスクに関するデータ利用と最終政策品質を改善することを証明した。Copyright 2021 The Author(s) All rights reserved. Translated from English into Japanese by JST.【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (4件):
分類
JSTが定めた文献の分類名称とコードです
オペレーティングシステム  ,  計算機網  ,  無線通信一般  ,  待ち行列 
引用文献 (40件):
  • Mnih, V.; Kavukcuoglu, K.; Silver, D.; Rusu, A.A.; Veness, J.; Bellemare, M.G.; Graves, A.; Riedmiller, M.; Fidjeland, A.K.; Ostrovski, G.; et al. Human-level control through deep reinforcement learning. Nature 2015, 518, 529-533.
  • Wu, H.; Song, S.; You, K.; Wu, C. Depth Control of Model-Free AUVs via Reinforcement Learning. IEEE Trans. Syst. ManCybern. Syst. 2018, 49, 2499-2510.
  • Moreira, I.; Rivas, J.; Cruz, F.; Dazeley, R.; Ayala, A.; Fernandes, B. Deep Reinforcement Learning with Interactive Feedback in a Human-Robot Environment. Appl. Sci. 2020, 10, 5574.
  • Gregurić, M.; Vujić, M.; Alexopoulos, C.; Miletić, M. Application of Deep Reinforcement Learning in Traffic Signal Control: An Overview and Impact of Open Traffic Data. Appl. Sci. 2020, 10, 4011.
  • Silver, D.; Schrittwieser, J.; Simonyan, K.; Antonoglou, I.; Huang, A.; Guez, A.; Hubert, T.; Baker, L.; Lai, M.; Bolton, A.; et al. Mastering the game of Go without human knowledge. Nature 2017, 550, 354-359.
もっと見る
タイトルに関連する用語 (4件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る