文献
J-GLOBAL ID:201402223569325910   整理番号:14A0227473

連続値入力問題のためのガウス型状態表現を用いたTD学習法

A Temporal-Difference Learning Method Using Gaussian State Representation for Continuous State Space Problems
著者 (3件):
資料名:
巻: 29  号:ページ: 157-167 (J-STAGE)  発行年: 2014年 
JST資料番号: U0128A  ISSN: 1346-8030  資料種別: 逐次刊行物 (A)
記事区分: 原著論文  発行国: 日本 (JPN)  言語: 日本語 (JA)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
強化学習では状態空間中で政策を学習する手法が広く用いられており,状態表現学習を行う手法として連続値入力RPM(Rational Policy Making)は経験強化型の強化学習法である。本論文では,成功した行動系列の経験をそのまま利用し,成功し続ける限りは改良を行わない連続値入力RPMの学習の素早さと困難なタスクへの適用性を保ちつつ,ノイズの大きい環境でも素早く合理的な解を得る手法を提案した。本手法では連続値入力RPMで用いられるガウス型の状態表現に状態の価値の概念を導入し,状態の素早い取捨選択を行う。また,状態の選択回数をもとに失敗行動を繰り返すようなループに陥った状態を直接的に削減するために,TD(Temporal Difference)学習を用いて価値を更新する。実際に,1)2次元平面環境の経路探索問題,2)カート・ポール振り上げ問題で実験を行い,連続値RPM,格子空間を用いたQ-learning,Tile Codingを用いたQ-learningとの性能を比較した。その結果,1)では本手法が比較的早い段階で合理的な状態表現を獲得し,よい収束値を得られ,2)では予めよい状態表現を与えたQ-learningと同等の性能に同等以上の学習速度で収束し,ノイズに対する頑健性が示唆された。
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

分類 (3件):
分類
JSTが定めた文献の分類名称とコードです
人工知能  ,  人間機械系  ,  その他のオペレーションズリサーチの手法 
引用文献 (23件):
  • [Doya 00] Doya, K.: Reinforcement Learning In Continuous Time and Space, Neural Computation, Vol. 12, No. 1, pp. 219-245 (2000)
  • [Ernst 05] Ernst, D., Geurts, P., and Wehenkel, L.: Tree-based batch mode reinforcement learning, Journal of Machine Learning Research, Vol. 6, No. 1, pp. 503-556 (2005)
  • [堀内 99] 堀内匡, 藤野 昭典, 片井 修, 椹木 哲夫: 連続値入出力を扱うファジィ内挿型Q-Learningの提案, 計測自動制御学会論文集, Vol. 35, No. 2, pp. 271-279 (1999)
  • [石井 05] 石井信, 銅谷賢治: 強化学習:理論と応用, 電子情報通信学会誌, Vol. 88, No. 10, pp. 804-810 (2005)
  • [Konda 03] Konda, V. R., and Tsitsiklis, J. N.: On Actor-Critic Algorithms, SIAM Journal on Control and Optimization, Vol. 42, No. 4, pp. 1143-1166 (2003)
もっと見る
タイトルに関連する用語 (3件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る