プレプリント
J-GLOBAL ID:202202215840880550   整理番号:22P0001528

主双対法による強化学習のための安全ポリシー【JST・京大機械翻訳】

Safe Policies for Reinforcement Learning via Primal-Dual Methods
著者 (4件):
資料名:
発行年: 2019年11月20日  プレプリントサーバーでの情報更新日: 2022年01月12日
JST資料番号: O7000B  資料種別: プレプリント
記事区分: プレプリント  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
本論文では,強化学習問題の設定における安全政策の学習を研究した。これは,遷移確率を知らないMarkov決定プロセス(MDP)を制御することを目的としているが,経験を通してサンプル軌跡にアクセスする。運転時間中に高い確率で望ましい安全セットに残留するエージェントとして安全性を定義した。従って,制約が確率的である制約付きMDPを考察した。強化学習フレームワークにおける確率的制約に関して政策を最適化する直接的方法が無いので,問題のエルゴード緩和を提案した。提案した緩和の利点は3倍である。(i)安全保証は,エピソードタスクの場合に維持され,それらは継続タスクに対して与えられた時間水平まで保たれる。(ii)その非凸性にもかかわらず制約付き最適化問題は,政策のパラメータ化が十分に豊富であれば,任意に小さい双対性ギャップを持つ。(iii)安全学習問題に関連するLagrangeの勾配は,標準ポリシー勾配結果と確率的近似ツールを用いて容易に計算できる。これらの利点の悪化により,プライムデュアルアルゴリズムが安全で最適であるポリシーを見つけることができることを立証した。連続ドメインにおけるナビゲーションタスクにおいて提案アプローチを試験した。数値結果は,著者らのアルゴリズムが環境および必要な安全レベルへの政策を動的に適応できることを示した。【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (1件):
分類
JSTが定めた文献の分類名称とコードです
人工知能 
タイトルに関連する用語 (1件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る