期待報酬ベクトルのチェビシェフスカラー化によるパレート最適方策の網羅的発見法

齋竹良介; 竹木祥太; 荒井幸代

文献

J-GLOBAL ID：201802275742797708 整理番号：18A2073057

期待報酬ベクトルのチェビシェフスカラー化によるパレート最適方策の網羅的発見法

出版者サイト複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=18A2073057&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=18A2073057&from=J-GLOBAL&jstjournalNo=U0473A") }}

著者 (3件)： , ,
資料名：
巻： J101-D 号： 9 ページ： 1276-1285 (WEB ONLY) 発行年： 2018年09月01日
JST資料番号： U0473A ISSN： 1881-0225 資料種別：逐次刊行物 (A)
記事区分：原著論文発行国：日本 (JPN) 言語：日本語 (JA)

多目的最適化問題の解法として,強化学習を導入した「多目的強化学習」が注目されている。既存手法は,各目的のQ値からなる期待報酬ベクトルの扱い方の相違から,single-policy approachとmultiple-policy approachに大別される。前者は学習中のQ値の更新ごとに各目的のQ値を重みづけし,単目的化したスカラー量を用いる方法,後者は学習中にはスカラー化せず,各目的に次状態の全ての行動に対するQ値を保持しながら,学習後に限りスカラー化する方法である。いずれも,重みづけにおいて問題に対する事前知識が必要な点や,非凸な領域に存在する解を獲得できないという問題がある。本論文は,重みづけが学習後1回でよいこと,及び,一回に複数のパレート最適方策を獲得できることから後者のアルゴリズムに着目し,非凸な領域の解も獲得できる方法を提案する。また,提案手法の有効性を二つの代表的なベンチマークを用いた実験によって評価する。(著者抄録)

, , ,
, , ,

数理計画法 , その他のオペレーションズリサーチの手法 , 人工知能

引用文献 (9件)：

R.S. Sutton and A.G. Barto, Reinforcement learning: An introduction, MIT Press Cambridge, vol.1, no.1, 1998.
中山弘隆,岡部達哉,荒川雅生,尹禮分,多目的最適化と工学設計-しなやかシステム工学アプローチ,現代図書,2007.
C. Liu, X. Xu, and D. Hu, “Multiobjective reinforcement learning a comprehensive overview,” IEEE Trans. Syst., Man, Cybern., C, Appl. Rev., vol.45, no.3, pp.385-398, 2015.
K.V. Moffaert, M.M. Drugan, and A. Now, “Hypervolume-based multi-objective reinforcement learning,” International Conference on Evolutionary Multi-Criterion Optimization, pp.352-366, 2013.
M. Humphrys, “Action selection methods using reinforcement learning,” From Animals to Animats, 4, pp.135-144, 1996.

, , , ,

前のページに戻る