解釈可能ファジィ強化学習政策を生成するためのパーティクルスワーム最適化【Powered by NICT】

Hein Daniel; Hein Daniel; Hentschel Alexander; Runkler Thomas; Udluft Steffen

文献

J-GLOBAL ID：201702288092042073 整理番号：17A1549346

解釈可能ファジィ強化学習政策を生成するためのパーティクルスワーム最適化【Powered by NICT】

Particle swarm optimization for generating interpretable fuzzy reinforcement learning policies

出版者サイト複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=17A1549346&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=17A1549346&from=J-GLOBAL&jstjournalNo=T0797A") }}

著者 (5件)： , , , ,
資料名：
巻： 65 ページ： 87-98 発行年： 2017年
JST資料番号： T0797A ISSN： 0952-1976 資料種別：逐次刊行物 (A)
記事区分：原著論文発行国：オランダ (NLD) 言語：英語 (EN)

ファジィコントローラは,連続状態および行動空間のための効率的で解釈可能なシステムコントローラである。今日まで,このようなコントローラは手作業で構築されまたはエキスパートジェネレイテッド(one-generated)問題固有のコスト関数を用いたまたは最適制御戦略についての詳細な知識を組み込むかのいずれか自動的に訓練した。自動訓練プロセスのための両方の要求は,ほとんどの実世界強化学習(RL)問題には見いだされなかった。このような応用では,政策訓練中の問題の動力学の探査を必要とするので,オンライン学習は安全上の理由から禁止されていることが多い。が実際のシステムのダイナミックスをシミュレートする世界モデルに訓練パラメータのみでファジィRL政策が構成できることをファジィパーティクルスワーム強化学習(FPSRL)手法を導入した。これら世界モデルは,実際のシステムの以前に生成された転移試料を用いた自律機械学習法を用いて作成した。著者らの知る限り,この手法は,モデルベースバッチRLに自己組織化ファジィコントローラを関連付ける最初のものである。FPSRLはオンライン学習は禁止されているがドメインの問題を解決することを意図している,システム動力学は以前に作られたデフォルト政策転移試料からモデル化が比較的容易で,比較的容易に解釈可能な制御政策が存在することを期待されている。そのようなドメインから問題と提案した方法の効率を,三種類の標準RLベンチマーク,すなわち,山岳,カートポールバランシング,カートポール振り上げを用いて実証した。著者らの実験結果は,高性能,解釈可能なファジィ政策を実証した。Copyright 2017 Elsevier B.V., Amsterdam. All rights reserved. Translated from English into Japanese by JST.【Powered by NICT】

, , , , , , , , ,
, , , , , 【Automatic Indexing@JST】

著者キーワード (5件)： , , , ,

人工知能

, , ,

前のページに戻る