準エキスパート集団からのアンサンブル逆強化学習

冨田真司; 濱津文哉; 濱上知樹

文献

J-GLOBAL ID：201702269098750004 整理番号：17A0658327

準エキスパート集団からのアンサンブル逆強化学習

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=17A0658327&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=17A0658327&from=J-GLOBAL&jstjournalNo=S0810A") }}

著者 (3件)： , ,
資料名：
巻： 137 号： 4 ページ： 667-673(J-STAGE) 発行年： 2017年
JST資料番号： S0810A ISSN： 0385-4221 資料種別：逐次刊行物 (A)
記事区分：原著論文発行国：日本 (JPN) 言語：日本語 (JA)

準エキスパートの行動に基づくアンサンブル逆強化学習を提案した。多くの逆強化学習(IRL)では,目標を達成するのに理想的な報酬を持つ熟練エキスパートが存在するが,実世界の問題ではエキスパートが常に存在するわけではない。さらに,推定された報酬関数は目標タスクを達成する報酬が1つのエキスパートにより推定される場合,その固有の挙動に依存するバイアスを含んでいる。このようなIRLの限界を克服するために,IRLにアンサンブルおよびブースティングアプローチであるAdaboostを適用し,多数の準エキスパートの集団からの推定報酬関数を統合した。不完全な領域を含むグリッド世界における提案した方法の有効性を確認するため,推定報酬関数と総合報酬関数を用いた強化学習の結果をシミュレーションで比較し,提案手法が報酬を適応的に推定できることを示した。

, , , , , , ,
, , , ,

著者キーワード (10件)： , , , , , , , , ,

人工知能

引用文献 (15件)：

(1) R. S. Sutton and A. G. Barto: “Reinforcement Learning: An Introduction”, A Bradford Book, The MIT Press (1998)
(2) A. Y. Ng and S. Russell: “Algorithms for Inverse Reinforcement Learning”, In Proceedings of the 17th International Conference on Machine Learning, pp. 663-670 (2000)
(3) P. Abbeel and A. Y. Ng: “Apprenticeship learning via Inverse Reinforcement Learning”, In Proceedings of the 21th International Conference on Machine Learning, p. 1 (2004)
(4) S. Arai: “Applying Inverse Reinforcement Learning to Reward Design in Multiagent Domains”, Journal of the Society of Instrument and Control Engineers, Vol. 52, No. 6, pp. 534-539, 2013-06-10 (2013) (in Japanese)
荒井幸代:「逆強化学習によるマルチエージェント系の報酬設定」,計測と制御,Vol. 52, No. 6, pp. 534-539 (2013)

, , ,

前のページに戻る