文献
J-GLOBAL ID:201602212752649639   整理番号:16A0268997

方策に関する知識を分離した方策こう配法 -環境ダイナミクスと行動価値による方策表現-

Policy Gradient Reinforcement Learning with Separated Knowledge: Environmental Dynamics and Action-Values in Policies
著者 (2件):
資料名:
巻: 136  号:ページ: 282-289 (J-STAGE)  発行年: 2016年 
JST資料番号: S0810A  ISSN: 0385-4221  資料種別: 逐次刊行物 (A)
記事区分: 原著論文  発行国: 日本 (JPN)  言語: 日本語 (JA)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
強化学習に用いる方策こう配法において,方策に関する知識を環境ダイナミクスと行動価値とに分離する手法を提案した。方策こう配法による強化学習において,方策に関する知識には,状態の確率的遷移を表す情報(環境ダイナミクス)と,環境ダイナミクスに依存しないでタスクに応じた有効な行動決定をもたらす普遍的情報(行動知識)とがある。先行研究において,これらを分離して扱う手法を提案したが,行動知識を表現するためのパラメータの取扱いが,状態価値に相当するものに限られていた。本論文では,方策を各時刻における目的関数の最小化問題に帰着させ,その目的関数を,行動価値に相当する問題解決のための行動知識と状態遷移確率に相当する環境ダイナミクスとに分離した。提案手法を追跡問題に適用した実験により,提案手法の有効性を確認した。
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

分類 (1件):
分類
JSTが定めた文献の分類名称とコードです
人工知能 
引用文献 (24件):
  • (1) R. S. Sutton and A. G. Barto: Reinforcement Learning, MIT Press, Cambridge (1998)
  • (2) R. J. Williams: “Simple Statistical Gradient-following Algorithms for Connectionist Reinforcement Learning”, Machine Learning, Vol. 8, pp. 229-256 (1992)
  • (3) H. Kimura, M. Yamamura, and S. Kobayashi: “Reinforcement Learning in Partially Observable Markov Decision Processes: A Stochastic Gradient Method”, Journal of the Japanese Society for Artificial Intelligence, Vol. 11, No. 5, pp. 761-768 (1996) (in Japanese)
  • 木村 元・山村雅幸・小林重信:「部分観測マルコフ決定過程下での強化学習:確率的傾斜法による接近」,人工知能学会誌,Vol. 11, No. 5, pp. 761-768 (1996)
  • (4) L. C. Baird and A. W. Moore: “Gradient Descent for General Reinforcement Learning”, Advances in Neural Information Processing Systems 11, MIT Press, pp. 968-974 (1999)
もっと見る

前のページに戻る