スパース特徴選択はバッチ強化学習をより効率的に学習する【JST・京大機械翻訳】

Hao Botao; Duan Yaqi; Lattimore Tor; Szepesvari Csaba; Wang Mengdi

プレプリント

J-GLOBAL ID：202202205805525563 整理番号：22P0207856

スパース特徴選択はバッチ強化学習をより効率的に学習する【JST・京大機械翻訳】

Sparse Feature Selection Makes Batch Reinforcement Learning More Sample Efficient

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (5件)： , , , ,
資料名：
発行年： 2020年11月08日プレプリントサーバーでの情報更新日： 2020年11月08日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

本論文では,スパース線形関数近似を用いた高次元バッチ強化学習(RL)の統計的解析を提供した。多数の候補特徴があるとき,著者らの結果は,スパース性意識方式がバッチRLをより効率的に作ることができるという事実に光を当てた。最初に,オフポリシー政策評価問題を考察した。新しいターゲットポリシーを評価するために,Lasso適合Q-評価法を解析し,周囲次元に多項式依存性を持たない有限サンプル誤差限界を確立した。Lassoバイアスを低減するために,グループLassoにより選択された特徴に当てはめQ-評価を適用する事後モデル選択推定器を提案した。付加的信号強度仮定の下で,著者らは,目標政策のデータ分布と占有測度の間の分布不整合を測定する発散関数に依存する,よりシャープなインスタンス依存誤差限界を引き出した。さらに,著者らは,バッチ政策最適化のためのLasso適合Q反復を研究し,関連する特徴の数およびデータ共分散の限られた最小固有値の間の比率に依存して,有限サンプル誤差限界を確立した。最後に,著者らは,著者らの上限にほぼマッチするバッチデータ政策評価/最適化のためのミニマックス下限による結果を補完した。結果は,十分に条件付されたデータが,疎なバッチ政策学習のために重要であることを示唆する。【JST・京大機械翻訳】

, , , , , , , , , , ,
, , , , 【Automatic Indexing@JST】

人工知能 , 数値計算 , 図形・画像処理一般

, , ,

前のページに戻る