文献
J-GLOBAL ID:202202274022751399   整理番号:22A1038476

学習次数ネットワークによるモデルベース深層強化学習の改善とロボット制御におけるその応用【JST・京大機械翻訳】

Improving Model-Based Deep Reinforcement Learning with Learning Degree Networks and Its Application in Robot Control
著者 (4件):
資料名:
巻: 2022  ページ: Null  発行年: 2022年 
JST資料番号: U7791A  ISSN: 1687-9600  資料種別: 逐次刊行物 (A)
記事区分: 原著論文  発行国: イギリス (GBR)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
深層強化学習は,意思決定と制御の分野における人工ニューラルネットワークの技術である。従来のモデルフリー強化学習アルゴリズムは,アルゴリズムを反復するために大量の環境対話型データを必要とする。また,モデルベースの強化学習(MBRL)アルゴリズムは,データの効率を改善し,MBRLは,低い予測精度に,データの効率を改善するのに対して,このモデルの性能は,訓練データの低い利用のため,苦しむ。MBRLは動的モデルで生成された追加データを利用するが,低予測精度のシステムダイナミックスモデルは低品質データを提供し,アルゴリズムの最終結果に影響する。本論文では,A3C(非同期Advantage Actor-Crit)アルゴリズムに基づき,学習度ネットワーク(MBRL-LDN)を用いた改良モデルベース深層強化学習アルゴリズムを提示した。提案したマルチダイナミックモデルとオリジナル予測状態によって出力された予測状態間の差を比較することによって,システムダイナミックスモデルの学習度を計算した。学習度は動的モデルにより生成されたデータの品質を表し,特定のエピソード中に動的モデルと相互作用し続けるかどうかを決定するのに用いた。したがって,低品質データは廃棄されるであろう。提案方法の優位性を,広範囲なコントラスト実験を実施することによって検証する。Copyright 2022 Guoqing Ma et al. Translated from English into Japanese by JST.【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (1件):
分類
JSTが定めた文献の分類名称とコードです
人工知能 
引用文献 (27件):
  • C. Qiu, Y. Hu, Y. Chen, B. Zeng, "Deep deterministic policy gradient (DDPG)-Based energy harvesting wireless communications," IEEE Internet of Things Journal, vol. 6, no. 5, pp. 8577-8588, 2019.
  • D. Silver, A. Huang, C. J. Maddison, A. Guez, L. Sifre, G. van den Driessche, J. Schrittwieser, I. Antonoglou, V. Panneershelvam, M. Lanctot, S. Dieleman, D. Grewe, J. Nham, N. Kalchbrenner, I. Sutskever, T. Lillicrap, M. Leach, K. Kavukcuoglu, T. Graepel, D. Hassabis, "Mastering the game of Go with deep neural networks and tree search," Nature, vol. 529, no. 7587, pp. 484-489, 2016.
  • G. Jing, H. Bai, J. George, A. Chakrabortty, "Model-free reinforcement learning of minimal-cost variance control," IEEE Control Systems Letters, vol. 4, no. 4, pp. 916-921, 2020.
  • F. Wang, H. Yu, H. Li, X. Li, J. Ye, H. Yu, "Deterministic diagnostic pattern generation (DDPG) for compound defects," Proceedings of the 2008 IEEE International Test Conference, pp. 1-10, IEEE, Santa Clara, CA, USA, October 2008.
  • J. Fan, Z. Wang, Y. Xie, Z. Yang, "A theoretical analysis of deep Q-learning," Proceedings of the Learning for Dynamics and Control, vol. 120, pp. 486-489, 2020.
もっと見る

前のページに戻る