プレプリント
J-GLOBAL ID:202202205805525563   整理番号:22P0207856

スパース特徴選択はバッチ強化学習をより効率的に学習する【JST・京大機械翻訳】

Sparse Feature Selection Makes Batch Reinforcement Learning More Sample Efficient
著者 (5件):
資料名:
発行年: 2020年11月08日  プレプリントサーバーでの情報更新日: 2020年11月08日
JST資料番号: O7000B  資料種別: プレプリント
記事区分: プレプリント  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
本論文では,スパース線形関数近似を用いた高次元バッチ強化学習(RL)の統計的解析を提供した。多数の候補特徴があるとき,著者らの結果は,スパース性意識方式がバッチRLをより効率的に作ることができるという事実に光を当てた。最初に,オフポリシー政策評価問題を考察した。新しいターゲットポリシーを評価するために,Lasso適合Q-評価法を解析し,周囲次元に多項式依存性を持たない有限サンプル誤差限界を確立した。Lassoバイアスを低減するために,グループLassoにより選択された特徴に当てはめQ-評価を適用する事後モデル選択推定器を提案した。付加的信号強度仮定の下で,著者らは,目標政策のデータ分布と占有測度の間の分布不整合を測定する発散関数に依存する,よりシャープなインスタンス依存誤差限界を引き出した。さらに,著者らは,バッチ政策最適化のためのLasso適合Q反復を研究し,関連する特徴の数およびデータ共分散の限られた最小固有値の間の比率に依存して,有限サンプル誤差限界を確立した。最後に,著者らは,著者らの上限にほぼマッチするバッチデータ政策評価/最適化のためのミニマックス下限による結果を補完した。結果は,十分に条件付されたデータが,疎なバッチ政策学習のために重要であることを示唆する。【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (3件):
分類
JSTが定めた文献の分類名称とコードです
人工知能  ,  数値計算  ,  図形・画像処理一般 
タイトルに関連する用語 (4件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る