二重ロバスト分布ロバストオフポリシー評価と学習【JST・京大機械翻訳】

Kallus Nathan; Mao Xiaojie; Wang Kaiwen; Zhou Zhengyuan

プレプリント

J-GLOBAL ID：202202220878761639 整理番号：22P0292279

二重ロバスト分布ロバストオフポリシー評価と学習【JST・京大機械翻訳】

Doubly Robust Distributionally Robust Off-Policy Evaluation and Learning

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (4件)： , , ,
資料名：
発行年： 2022年02月19日プレプリントサーバーでの情報更新日： 2022年07月18日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

オフポリシー評価と学習(OPE/L)は,オンライン実験が制限されるアプリケーションで重要な,より良い決定を行うためにオフライン観測データを使用する。しかし,検層データに完全に依存して,OPE/Lは,データ生成環境間の環境分布シフト-不一致に敏感であり,政策が展開するのに,その推定誤差とレグレットは,逆比例重みづけに依存するが,その推定誤差とレグレットは,その推定誤差とレグレットが,非パラメトリックに見積もられ,その分散が,非パラメトリックに推定され,そして,その分散が,たとえそうでないならば,その分散が最適であるならば,逆比例重みづけに依存する。標準,非ロバスト,OPE/Lに対して,これは二重ロバスト(DR)法によって解決されるが,それらは最悪ケース期待値を含むより複雑なDROPE/Lに自然に拡張しない。本論文では,KL-発散不確実性集合を持つDROPE/Lに対する最初のDRアルゴリズムを提案した。評価のため,局所DoublyロバストDROPE(LDR ̄2OPE)を提案し,弱い製品レート条件下で半パラメトリック効率を達成することを示した。局在化技術のおかげで,LDR ̄2OPEは,標準OPEのためのDR法のように,少数の回帰のフィッティングを必要とするだけであった。学習のために,著者らは,連続する連続的ロバストDROPL(CDR ̄2OPL)を提案して,回帰の連続体を含む製品レート条件の下で,未知の傾向がノンパラメトリックに見積もられるときでさえ,それはO(N ̄-1/2)の速いレレットレートを楽しむことを示した。著者らは,シミュレーションにおいて著者らのアルゴリズムを経験的に検証し,さらに著者らの結果を一般的f-発散不確実性集合に拡張した。【JST・京大機械翻訳】

, , , , , , , , , ,
, , , , 【Automatic Indexing@JST】

パターン認識 , 統計学 , 人工知能

, , ,

前のページに戻る