関数近似手法を用いた強化学習アルゴリズム

釜谷博行; 藤村敦子; 工藤憲昌; 阿部健一

文献

J-GLOBAL ID：200902236966881769 整理番号：09A0138847

関数近似手法を用いた強化学習アルゴリズム

出版者サイト複写サービスで全文入手
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=09A0138847&from=J-GLOBAL&jstjournalNo=S0436A") }}

著者 (4件)： , , ,
資料名：
号： 43 ページ： 23-27 発行年： 2008年12月17日
JST資料番号： S0436A ISSN： 0385-4124 資料種別：逐次刊行物 (A)
記事区分：原著論文発行国：日本 (JPN) 言語：日本語 (JA)

未知環境においてロボットに行動を獲得させる手法として,強化学習が注目されている。強化学習を多種多様なセンサ類を有するロボットに適用する場合,センサ情報から直接状態を表現すると状態空間が連続となり,制御規則の探索に要する時間が大きくなるという問題が発生する。この問題へのアプローチとして,関数近似を用いる方法が提案されていることを踏まえて,本稿では,関数近似手法として,多変量回帰手法の一種であるLWPLS(Locally Weighted Partial Least Square:局所重み付き部分最小二乗法)を用いて価値関数を表現し,これを強化学習に組み込んだ新しいアルゴリズムを提案した。具体的には,強化学習,関数近似,学習アルゴリズムについて説明し,学習問題として,移動ロボットのナビゲーション問題を取り上げ,シミュレーション実験によって,1)状態を離散化した場合との比較,2)各パラメータに対する学習性能の比較,3)学習性能の改善,等について報告した。

, , , , , , , , , , , ,
,

人工知能

, , ,

前のページに戻る