抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
深い強化学習(RL)が様々なタスクにおいて人間レベルの性能を上回るという事実にもかかわらず,まだいくつかの基本的課題がある。第1に,大部分のRL方法は,満足な性能を達成するために,環境の探査から集中的データを必要とする。第2に,RLにおけるニューラルネットワークの使用は,人間が理解できる方法でシステムの内部を解釈することを困難にする。これらの2つの課題に取り組むために,著者らは,RLエージェントが,その探査過程を超えて,その将来探査を効果的に誘導するための高レベル知識を不満にすることを可能とするフレームワークを提案した。特に,L ̄*学習アルゴリズムを用いて有限報酬オートマトンの形で高レベル知識を学習する新しいRLアルゴリズムを提案した。エピソードRLにおいて,有限報酬オートマトンは有限に多くの報酬値を持つ任意の非Markov有界報酬関数を表現でき,任意の精度で任意の非Markov有界報酬関数(無限に多くの報酬値を持つ)を近似できることを証明した。また,提案したRLアプローチが限界における最適ポリシーにほぼ確実に収束するようなエピソード長に対する下限を提供した。このアプローチを,非Markov報酬関数を持つ2つのRL環境に対してテストし,各環境に対する複雑さの増加による様々なタスクを選択した。このアルゴリズムを,非Markov報酬関数のための最先端のRLアルゴリズム,例えば,RL(JIRP),学習報酬機械(LRM),およびProximal政策最適化(PPO2)の共同推論のような非Markov報酬関数に対して比較する。。” Rown for Rown Inference for Reward Rower for Rown Reward Mechn(LRM)とProximal Power Optimization(PPO2)。著者らの結果は,著者らのアルゴリズムが他のベースライン法より速く最適ポリシーに収束することを示した。【JST・京大機械翻訳】