抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
EM-based Policy Hyper Parameter Exploration(EPHE)(Wang et al.,2016)は,ステップサイズの設定が不要なEMアルゴリズム型の方策改善と決定論的な方策のもとでも確率的に探索を行うことのできるPolicy Gradient Parameter Exploration(PGPE)(Sehnke et al.,2010)の両方を実現した手法である。しかし,EPHEの性能を高めるためには,方策の更新に用いるサンプル系列を累積報酬の高いものにのみ限定する,エリート選択と呼ばれるヒューリスティクスが必要とされていた。しかし,このエリート選択には理論的な裏付けがなく,なぜこれがうまく働くかはよく理解されていない。本研究では,エリート選択を用いた手法を正当化することを意図して,方策パラメータの事前分布を混合ガウス分布で表現することを考えた。混合ガウス分布で表現することで,エリート選択のようにサンプルを適応的にクラスタリングし,更新に役立てることができる。一方,混合ガウス分布の分散をEMアルゴリズム型の方策改善で決定してしまうと,探索が十分に行われていない場合でも分散を小さくしてしまい,しばしば適切な探索が行えなくなる問題が生じることがわかった。そこで,探索が適切に行われるよう分散の調整を行ったところ,エリートと同等もしくはそれ以上の性能を発揮することが確認できた。(著者抄録)