抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
著者らは以前に直接的政策探索における政策を状態と行動の対の集合で表し,それを遺伝的アルゴリズム(GA)を用いて最適化する手法SAPを提案した。本論文では,マルコフ決定過程(MDP)のサブクラスとして複数の選択肢の中から行動を選択する状況で次状態が予測でき,評価がepisodicな場合に着目し,様々な形式を持つ事例集合による政策表現(事例ベース政策,以下EBP)の枠組みを提案した。EBPは事例とその形式に応じた事例ベース推論(CBR)による行動選択アルゴリズムを利用でき,1)状態-価値型,2)状態-状態型といった新たな戦略を提示した。また,行動選択アルゴリズムを固定して事例集合をGAによる最適化の対象とするEBP-GAを実装し,i)情報の表現形式の選択可能性,ii)CBRによる政策の表現能力,iii)GAによる政策最適化との親和性の高さ,iv)領域知識の導入容易性といった特徴を示した。実際にMDPとしてACROBOT問題及びTETRIS問題を対象に性能評価実験を行い,問題の特徴や事前知識の有無などに合わせて状態-行動型EDPだけではなく,1)や2)を使い分けることの有用性を確かめた。