質問と反例を用いたアクティブ有限報酬オートマトン推論と強化学習【JST・京大機械翻訳】

Xu Zhe; Wu Bo; Ojha Aditya; Neider Daniel; Topcu Ufuk

プレプリント

J-GLOBAL ID：202202209992780852 整理番号：21P0037494

質問と反例を用いたアクティブ有限報酬オートマトン推論と強化学習【JST・京大機械翻訳】

Active Finite Reward Automaton Inference and Reinforcement Learning Using Queries and Counterexamples

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (5件)： , , , ,
資料名：
発行年： 2020年06月28日プレプリントサーバーでの情報更新日： 2021年07月02日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

深い強化学習(RL)が様々なタスクにおいて人間レベルの性能を上回るという事実にもかかわらず,まだいくつかの基本的課題がある。第1に,大部分のRL方法は,満足な性能を達成するために,環境の探査から集中的データを必要とする。第2に,RLにおけるニューラルネットワークの使用は,人間が理解できる方法でシステムの内部を解釈することを困難にする。これらの2つの課題に取り組むために,著者らは,RLエージェントが,その探査過程を超えて,その将来探査を効果的に誘導するための高レベル知識を不満にすることを可能とするフレームワークを提案した。特に,L ̄*学習アルゴリズムを用いて有限報酬オートマトンの形で高レベル知識を学習する新しいRLアルゴリズムを提案した。エピソードRLにおいて,有限報酬オートマトンは有限に多くの報酬値を持つ任意の非Markov有界報酬関数を表現でき,任意の精度で任意の非Markov有界報酬関数(無限に多くの報酬値を持つ)を近似できることを証明した。また,提案したRLアプローチが限界における最適ポリシーにほぼ確実に収束するようなエピソード長に対する下限を提供した。このアプローチを,非Markov報酬関数を持つ2つのRL環境に対してテストし,各環境に対する複雑さの増加による様々なタスクを選択した。このアルゴリズムを,非Markov報酬関数のための最先端のRLアルゴリズム,例えば,RL(JIRP),学習報酬機械(LRM),およびProximal政策最適化(PPO2)の共同推論のような非Markov報酬関数に対して比較する。。” Rown for Rown Inference for Reward Rower for Rown Reward Mechn(LRM)とProximal Power Optimization(PPO2)。著者らの結果は,著者らのアルゴリズムが他のベースライン法より速く最適ポリシーに収束することを示した。【JST・京大機械翻訳】

, , , , , , , ,
, , , 【Automatic Indexing@JST】

人工知能

, , , , ,

前のページに戻る