プレプリント
J-GLOBAL ID:202202213804503003   整理番号:22P0305192

Lazy-MDP:実行時の学習による解釈可能な強化学習に向けて【JST・京大機械翻訳】

Lazy-MDPs: Towards Interpretable Reinforcement Learning by Learning When to Act
著者 (4件):
資料名:
発行年: 2022年03月16日  プレプリントサーバーでの情報更新日: 2022年03月16日
JST資料番号: O7000B  資料種別: プレプリント
記事区分: プレプリント  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
伝統的に,強化学習(RL)は,人工エージェントに最適に作用する方法を決定することを目的とする。著者らは,作用する時の決定が等しく重要であると主張する。人間として,著者らは,状況によって必要とされるとき,デフォルト,インスティクティブまたは記憶行動から焦点,思考アウト行動までドリフトする。この適性を有するRLエージェントを強化するために,著者らは標準Markov決定プロセスを強化して,利用可能な新しい動作モードを作ることを提案して,それはデフォルト政策に意思決定をデフォルする。さらに,最小努力を奨励し,エージェントが決定的決定のみに焦点を合わせるために,非ラザイ行動をペナルティ化する。その結果,得られた形式的ラザイ-MDPと名づけた。値関数を表し,最適解を特徴付ける,ラザイMDPsの理論的性質を研究した。次に,ラザイ-MDPsで学習された政策は,一般的に解釈可能性の形式で,構築により,エージェントがデフォルトポリシー上で制御を行う状態を示す。著者らは,それらがデフォルトと新しい,ラザイ政策の間の性能の違いを説明するので,それらの状態と対応する行動をデームする。デフォルト(事前訓練またはランダム)としての準最適政策により,エージェントはAtariゲームにおいて競合性能を獲得できるが,限られた部分集合において制御を行うのみであることを観測した。【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (1件):
分類
JSTが定めた文献の分類名称とコードです
人工知能 
タイトルに関連する用語 (2件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る