学習次数ネットワークによるモデルベース深層強化学習の改善とロボット制御におけるその応用【JST・京大機械翻訳】

Ma Guoqing; Wang Zhifu; Yuan Xianfeng; Zhou Fengyu

文献

J-GLOBAL ID：202202274022751399 整理番号：22A1038476

学習次数ネットワークによるモデルベース深層強化学習の改善とロボット制御におけるその応用【JST・京大機械翻訳】

Improving Model-Based Deep Reinforcement Learning with Learning Degree Networks and Its Application in Robot Control

出版者サイト複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=22A1038476&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=22A1038476&from=J-GLOBAL&jstjournalNo=U7791A") }}

著者 (4件)： , , ,
資料名：
巻： 2022 ページ： Null 発行年： 2022年
JST資料番号： U7791A ISSN： 1687-9600 資料種別：逐次刊行物 (A)
記事区分：原著論文発行国：イギリス (GBR) 言語：英語 (EN)

深層強化学習は,意思決定と制御の分野における人工ニューラルネットワークの技術である。従来のモデルフリー強化学習アルゴリズムは,アルゴリズムを反復するために大量の環境対話型データを必要とする。また,モデルベースの強化学習(MBRL)アルゴリズムは,データの効率を改善し,MBRLは,低い予測精度に,データの効率を改善するのに対して,このモデルの性能は,訓練データの低い利用のため,苦しむ。MBRLは動的モデルで生成された追加データを利用するが,低予測精度のシステムダイナミックスモデルは低品質データを提供し,アルゴリズムの最終結果に影響する。本論文では,A3C(非同期Advantage Actor-Crit)アルゴリズムに基づき,学習度ネットワーク(MBRL-LDN)を用いた改良モデルベース深層強化学習アルゴリズムを提示した。提案したマルチダイナミックモデルとオリジナル予測状態によって出力された予測状態間の差を比較することによって,システムダイナミックスモデルの学習度を計算した。学習度は動的モデルにより生成されたデータの品質を表し,特定のエピソード中に動的モデルと相互作用し続けるかどうかを決定するのに用いた。したがって,低品質データは廃棄されるであろう。提案方法の優位性を,広範囲なコントラスト実験を実施することによって検証する。Copyright 2022 Guoqing Ma et al. Translated from English into Japanese by JST.【JST・京大機械翻訳】

, , , , , , , , , , , , ,
, , , , 【Automatic Indexing@JST】

人工知能

引用文献 (27件)：

C. Qiu, Y. Hu, Y. Chen, B. Zeng, "Deep deterministic policy gradient (DDPG)-Based energy harvesting wireless communications," IEEE Internet of Things Journal, vol. 6, no. 5, pp. 8577-8588, 2019.
D. Silver, A. Huang, C. J. Maddison, A. Guez, L. Sifre, G. van den Driessche, J. Schrittwieser, I. Antonoglou, V. Panneershelvam, M. Lanctot, S. Dieleman, D. Grewe, J. Nham, N. Kalchbrenner, I. Sutskever, T. Lillicrap, M. Leach, K. Kavukcuoglu, T. Graepel, D. Hassabis, "Mastering the game of Go with deep neural networks and tree search," Nature, vol. 529, no. 7587, pp. 484-489, 2016.
G. Jing, H. Bai, J. George, A. Chakrabortty, "Model-free reinforcement learning of minimal-cost variance control," IEEE Control Systems Letters, vol. 4, no. 4, pp. 916-921, 2020.
F. Wang, H. Yu, H. Li, X. Li, J. Ye, H. Yu, "Deterministic diagnostic pattern generation (DDPG) for compound defects," Proceedings of the 2008 IEEE International Test Conference, pp. 1-10, IEEE, Santa Clara, CA, USA, October 2008.
J. Fan, Z. Wang, Y. Xie, Z. Yang, "A theoretical analysis of deep Q-learning," Proceedings of the Learning for Dynamics and Control, vol. 120, pp. 486-489, 2020.

, , , , ,

前のページに戻る