連続状態空間のための強化学習アルゴリズム

釜谷博行; 阿部健一

文献

J-GLOBAL ID：200902229278845949 整理番号：09A0138832

連続状態空間のための強化学習アルゴリズム

出版者サイト複写サービスで全文入手
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=09A0138832&from=J-GLOBAL&jstjournalNo=S0436A") }}

著者 (2件)： ,
資料名：
号： 42 ページ： 65-68 発行年： 2007年12月20日
JST資料番号： S0436A ISSN： 0385-4124 資料種別：逐次刊行物 (A)
記事区分：原著論文発行国：日本 (JPN) 言語：日本語 (JA)

強化学習モデルでは,エージェントは,状態において実行すべき行動をQ値の大きさに応じて決定する。本稿では,各状態および行動に対するQ値を推定するために,RBF(Radial Basis Function)ネットワークを用いた関数近似による強化学習アルゴリズムの有効性について考察した。具体的には,RBFネットワークと強化学習アルゴリズムについて説明し,学習問題として,mountain-carタスク(急坂をパワー不足の車が登ってゴールに辿り着く問題)を取り上げ,シミュレーション実験を通して,RBFネットワークの学習性能と学習後の評価を行った。

, , , , , , , , , , , ,
, ,

人工知能

, ,

前のページに戻る