Lazy-MDP:実行時の学習による解釈可能な強化学習に向けて【JST・京大機械翻訳】

Jacq Alexis; Ferret Johan; Pietquin Olivier; Geist Matthieu

プレプリント

J-GLOBAL ID：202202213804503003 整理番号：22P0305192

Lazy-MDP:実行時の学習による解釈可能な強化学習に向けて【JST・京大機械翻訳】

Lazy-MDPs: Towards Interpretable Reinforcement Learning by Learning When to Act

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (4件)： , , ,
資料名：
発行年： 2022年03月16日プレプリントサーバーでの情報更新日： 2022年03月16日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

伝統的に,強化学習(RL)は,人工エージェントに最適に作用する方法を決定することを目的とする。著者らは,作用する時の決定が等しく重要であると主張する。人間として,著者らは,状況によって必要とされるとき,デフォルト,インスティクティブまたは記憶行動から焦点,思考アウト行動までドリフトする。この適性を有するRLエージェントを強化するために,著者らは標準Markov決定プロセスを強化して,利用可能な新しい動作モードを作ることを提案して,それはデフォルト政策に意思決定をデフォルする。さらに,最小努力を奨励し,エージェントが決定的決定のみに焦点を合わせるために,非ラザイ行動をペナルティ化する。その結果,得られた形式的ラザイ-MDPと名づけた。値関数を表し,最適解を特徴付ける,ラザイMDPsの理論的性質を研究した。次に,ラザイ-MDPsで学習された政策は,一般的に解釈可能性の形式で,構築により,エージェントがデフォルトポリシー上で制御を行う状態を示す。著者らは,それらがデフォルトと新しい,ラザイ政策の間の性能の違いを説明するので,それらの状態と対応する行動をデームする。デフォルト(事前訓練またはランダム)としての準最適政策により,エージェントはAtariゲームにおいて競合性能を獲得できるが,限られた部分集合において制御を行うのみであることを観測した。【JST・京大機械翻訳】

, , , , , ,
, , 【Automatic Indexing@JST】

人工知能

前のページに戻る