抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
強化学習は,1)粗視化による状態数削減がもたらす学習の高速化,2)状態や行動の抽象化による戦略的レベルでの環境ダイナミクスの分析や方策学習,3)方策関数のモジュール化による獲得知識の再利用を目的として階層化が行われている。本論文では,通常の状態空間である下層とそれを粗視化または抽象化した状態空間である上層の2層からなり,一般性を考慮して上層の状態を限定せず,下層と上層にマルコフ性を要求しない階層型強化学習モデルを方策勾配法で定式化した。本モデルは,i)上層における強化学習であるオンライン・コーチ学習,ii)下層におけるオフライン・エージェント学習をループさせることで報酬期待値を増大させる。i)ではゴール状態への最適行動列や状態列を得るために戦略レベルでの強化学習を行い,得られた最適方策が生成する状態列や状態推移確率を実現するようにii)を行う。また,統計物理学分野におけるIsingスピン系など,系の状態が生起される確率を定常分布で表せる場合についても報酬の期待値を増大させる上層の学習と,上層の分布を実現する下層の学習からなる階層型強化学習を定式化した。