方策勾配法における状態空間の階層化の一考察

五十嵐治一; 石原聖司

文献

J-GLOBAL ID：200902253945558374 整理番号：09A0105885

方策勾配法における状態空間の階層化の一考察

出版者サイト複写サービスで全文入手
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=09A0105885&from=J-GLOBAL&jstjournalNo=L1884C") }}

著者 (2件)： ,
資料名：
巻： 27th ページ： 7-12 発行年： 2008年
JST資料番号： L1884C 資料種別：会議録 (C)
記事区分：原著論文発行国：日本 (JPN) 言語：日本語 (JA)

強化学習は,1)粗視化による状態数削減がもたらす学習の高速化,2)状態や行動の抽象化による戦略的レベルでの環境ダイナミクスの分析や方策学習,3)方策関数のモジュール化による獲得知識の再利用を目的として階層化が行われている。本論文では,通常の状態空間である下層とそれを粗視化または抽象化した状態空間である上層の2層からなり,一般性を考慮して上層の状態を限定せず,下層と上層にマルコフ性を要求しない階層型強化学習モデルを方策勾配法で定式化した。本モデルは,i)上層における強化学習であるオンライン・コーチ学習,ii)下層におけるオフライン・エージェント学習をループさせることで報酬期待値を増大させる。i)ではゴール状態への最適行動列や状態列を得るために戦略レベルでの強化学習を行い,得られた最適方策が生成する状態列や状態推移確率を実現するようにii)を行う。また,統計物理学分野におけるIsingスピン系など,系の状態が生起される確率を定常分布で表せる場合についても報酬の期待値を増大させる上層の学習と,上層の分布を実現する下層の学習からなる階層型強化学習を定式化した。

, , , , , , , , , ,

人工知能 , その他のオペレーションズリサーチの手法

, ,

前のページに戻る