多様な戦略選択を可能にする事例ベースの政策表現とそのGAによる最適化

池田心; 小林重信; 喜多一

文献

J-GLOBAL ID：201002224342307777 整理番号：10A0249038

多様な戦略選択を可能にする事例ベースの政策表現とそのGAによる最適化

Exemplar-Based Policy with Selectable Strategies and its Optimization Using GA

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=10A0249038&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=10A0249038&from=J-GLOBAL&jstjournalNo=U0128A") }}

著者 (3件)： , ,
資料名：
巻： 25 号： 2 ページ： 351-362 (J-STAGE) 発行年： 2010年
JST資料番号： U0128A ISSN： 1346-8030 資料種別：逐次刊行物 (A)
記事区分：原著論文発行国：日本 (JPN) 言語：日本語 (JA)

著者らは以前に直接的政策探索における政策を状態と行動の対の集合で表し,それを遺伝的アルゴリズム(GA)を用いて最適化する手法SAPを提案した。本論文では,マルコフ決定過程(MDP)のサブクラスとして複数の選択肢の中から行動を選択する状況で次状態が予測でき,評価がepisodicな場合に着目し,様々な形式を持つ事例集合による政策表現(事例ベース政策,以下EBP)の枠組みを提案した。EBPは事例とその形式に応じた事例ベース推論(CBR)による行動選択アルゴリズムを利用でき,1)状態-価値型,2)状態-状態型といった新たな戦略を提示した。また,行動選択アルゴリズムを固定して事例集合をGAによる最適化の対象とするEBP-GAを実装し,i)情報の表現形式の選択可能性,ii)CBRによる政策の表現能力,iii)GAによる政策最適化との親和性の高さ,iv)領域知識の導入容易性といった特徴を示した。実際にMDPとしてACROBOT問題及びTETRIS問題を対象に性能評価実験を行い,問題の特徴や事前知識の有無などに合わせて状態-行動型EDPだけではなく,1)や2)を使い分けることの有用性を確かめた。

, , , , , , , , , ,

人工知能 , その他のオペレーションズリサーチの手法

引用文献 (22件)：

[Aha 1997] David W. Aha: Lazy Learning, Kluwer Academic Publishers (1997)
[井口 2001] 井口圭一,木村元,小林重信: GAによる並列二重倒立振子の振り上げ安定化制御, 計測自動制御学会第13回自律分散システムシンポジウム, pp. 277-282 (2001)
[池田 2006] 池田心,鈴木裕通,喜多一,マルコンシャンドル: マルチカーエレベータのスケジューリング問題, 計測自動制御学会システム・情報部門学術講演会2006,pp. 137-142 (2006)
[Ikeda 2005] Kokolo Ikeda: Exemplar-Based Direct Policy Search with Evolutionary Optimization, 2005 IEEE Congress on Evolutionary Computation, pp. 2357-2364 (2005)
[Graham 2001] Graham Kendall, and Glenn Whitwell: An Evolutionary Approach for the Tuning of a Chess Evaluation Function using Population Dynamics, Proceedings of the Genetic and Evolutionary Computation Conference, pp. 995-1002 (2001)

, , , , ,

前のページに戻る