文献
J-GLOBAL ID:201902244141695540   整理番号:19A2914162

通常のQ学習に近づく制約付き深層Q学習【JST・京大機械翻訳】

Constrained Deep Q-Learning Gradually Approaching Ordinary Q-Learning
著者 (7件):
資料名:
巻: 13  ページ: 103  発行年: 2019年 
JST資料番号: U7086A  ISSN: 1662-5218  資料種別: 逐次刊行物 (A)
記事区分: 原著論文  発行国: スイス (CHE)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
深いQネットワーク(DQN)(Mnihら,2013)は,典型的な深い強化学習法であるQ学習の拡張である。DQNにおいて,Q関数はすべての状態の下ですべての動作値を表現して,それは畳込みニューラルネットワークを用いて近似した。近似Q関数を用いて,最適ポリシーを導き出すことができた。DQNでは,目標値を計算し,正規間隔でQ関数により更新されるターゲットネットワークを導入し,学習過程を安定化する。目標ネットワークのより頻繁な更新は,より安定した学習プロセスをもたらす。しかし,ターゲットネットワークが更新されなければ,目標値は伝搬しないので,DQNは通常多数のサンプルを必要とする。本研究では,Q関数の出力とターゲット値の制約としてのターゲットネットワークの間の差を用いるConsted DQNを提案した。Q関数の出力とターゲットネットワークの間の差が大きいとき,制約DQN更新パラメータは保存的に更新され,この差が小さいとき,それらを積極的に更新する。提案した方法では,学習が進行するにつれて,制約が活性化される時間の数が減少する。その結果,更新法は従来のQ学習に徐々に近づく。Consted DQNはDQNの場合よりも小さい訓練データセットで収束し,ターゲットネットワークの更新周波数の変化と最適化器のあるパラメータの設定に対してロバストであることを見出した。Consted DQN単独は統合アプローチや分散法と比較してより良い性能を示さないが,実験結果はConsted DQNがこれらの方法の追加要素として使用できることを示した。Copyright 2020 The Author(s) All rights reserved. Translated from English into Japanese by JST.【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (1件):
分類
JSTが定めた文献の分類名称とコードです
操縦・制御系統 
引用文献 (48件):
  • Achiam J., Knight E., Abbeel P. (2019). Towards characterizing divergence in deep Q-learning. arXiv[Prepront].arXiv:1903.08894.
  • Andrychowicz M., Wolski F., Ray A., Schneider J., Fong R., Welinder P., et al. (2017). “Hindsight experience replay,” in Advances in Neural Information Processing Systems, Vol. 30, eds I. Guyon, U. V. Luxburg, S. Bengio, H. Wallach, R. Fergus, S. Vishwanathan, and R. Garnett (Long Beach, CA: Curran Associates, Inc.), 5048-5058.
  • Anschel O., Baram N., Shimkin N. (2017). “Averaged-DQN: variance reduction and stabilization for deep reinforcement learning,” in Proceedings of the 34th International Conference on Machine Learning (Sydney, NSW), 176-185.
  • Azar M. G., Munos R., Ghavamzadeh M., Kappen H. J. (2011). “Speedy Qlearning,” in Advances in Neural Information Processing Systems, Vol. 24, eds J. Shawe-Taylor, R. S. Zemel, P. L. Bartlett, F. Pereira, and K. Q. Weinberger (Granada: Curran Associates, Inc.), 2411-2419.
  • Baird L. (1995). “Residual algorithms: reinforcement learning with function approximation,” in Proceedings of the 12th International Conference on Machine Learning (Montreal, QC), 30-37. doi: 10.1016/B978-1-55860-377-6.50013-X
もっと見る
タイトルに関連する用語 (3件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る