通常のQ学習に近づく制約付き深層Q学習【JST・京大機械翻訳】

Ohnishi Shota; Uchibe Eiji; Yamaguchi Yotaro; Nakanishi Kosuke; Yasui Yuji; Ishii Shin; Ishii Shin

文献

J-GLOBAL ID：201902244141695540 整理番号：19A2914162

通常のQ学習に近づく制約付き深層Q学習【JST・京大機械翻訳】

Constrained Deep Q-Learning Gradually Approaching Ordinary Q-Learning

出版者サイト複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=19A2914162&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=19A2914162&from=J-GLOBAL&jstjournalNo=U7086A") }}

著者 (7件)： , , , , , ,
資料名：
巻： 13 ページ： 103 発行年： 2019年
JST資料番号： U7086A ISSN： 1662-5218 資料種別：逐次刊行物 (A)
記事区分：原著論文発行国：スイス (CHE) 言語：英語 (EN)

深いQネットワーク(DQN)(Mnihら,2013)は,典型的な深い強化学習法であるQ学習の拡張である。DQNにおいて,Q関数はすべての状態の下ですべての動作値を表現して,それは畳込みニューラルネットワークを用いて近似した。近似Q関数を用いて,最適ポリシーを導き出すことができた。DQNでは,目標値を計算し,正規間隔でQ関数により更新されるターゲットネットワークを導入し,学習過程を安定化する。目標ネットワークのより頻繁な更新は,より安定した学習プロセスをもたらす。しかし,ターゲットネットワークが更新されなければ,目標値は伝搬しないので,DQNは通常多数のサンプルを必要とする。本研究では,Q関数の出力とターゲット値の制約としてのターゲットネットワークの間の差を用いるConsted DQNを提案した。Q関数の出力とターゲットネットワークの間の差が大きいとき,制約DQN更新パラメータは保存的に更新され,この差が小さいとき,それらを積極的に更新する。提案した方法では,学習が進行するにつれて,制約が活性化される時間の数が減少する。その結果,更新法は従来のQ学習に徐々に近づく。Consted DQNはDQNの場合よりも小さい訓練データセットで収束し,ターゲットネットワークの更新周波数の変化と最適化器のあるパラメータの設定に対してロバストであることを見出した。Consted DQN単独は統合アプローチや分散法と比較してより良い性能を示さないが,実験結果はConsted DQNがこれらの方法の追加要素として使用できることを示した。Copyright 2020 The Author(s) All rights reserved. Translated from English into Japanese by JST.【JST・京大機械翻訳】

, , , , , , ,
, , , , , , 【Automatic Indexing@JST】

著者キーワード (6件)： , , , , ,

操縦・制御系統

引用文献 (48件)：

Achiam J., Knight E., Abbeel P. (2019). Towards characterizing divergence in deep Q-learning. arXiv[Prepront].arXiv:1903.08894.
Andrychowicz M., Wolski F., Ray A., Schneider J., Fong R., Welinder P., et al. (2017). “Hindsight experience replay,” in Advances in Neural Information Processing Systems, Vol. 30, eds I. Guyon, U. V. Luxburg, S. Bengio, H. Wallach, R. Fergus, S. Vishwanathan, and R. Garnett (Long Beach, CA: Curran Associates, Inc.), 5048-5058.
Anschel O., Baram N., Shimkin N. (2017). “Averaged-DQN: variance reduction and stabilization for deep reinforcement learning,” in Proceedings of the 34th International Conference on Machine Learning (Sydney, NSW), 176-185.
Azar M. G., Munos R., Ghavamzadeh M., Kappen H. J. (2011). “Speedy Qlearning,” in Advances in Neural Information Processing Systems, Vol. 24, eds J. Shawe-Taylor, R. S. Zemel, P. L. Bartlett, F. Pereira, and K. Q. Weinberger (Granada: Curran Associates, Inc.), 2411-2419.
Baird L. (1995). “Residual algorithms: reinforcement learning with function approximation,” in Proceedings of the 12th International Conference on Machine Learning (Montreal, QC), 30-37. doi: 10.1016/B978-1-55860-377-6.50013-X

, ,

前のページに戻る