プレプリント
J-GLOBAL ID:202202220878761639   整理番号:22P0292279

二重ロバスト分布ロバストオフポリシー評価と学習【JST・京大機械翻訳】

Doubly Robust Distributionally Robust Off-Policy Evaluation and Learning
著者 (4件):
資料名:
発行年: 2022年02月19日  プレプリントサーバーでの情報更新日: 2022年07月18日
JST資料番号: O7000B  資料種別: プレプリント
記事区分: プレプリント  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
オフポリシー評価と学習(OPE/L)は,オンライン実験が制限されるアプリケーションで重要な,より良い決定を行うためにオフライン観測データを使用する。しかし,検層データに完全に依存して,OPE/Lは,データ生成環境間の環境分布シフト-不一致に敏感であり,政策が展開するのに,その推定誤差とレグレットは,逆比例重みづけに依存するが,その推定誤差とレグレットは,その推定誤差とレグレットが,非パラメトリックに見積もられ,その分散が,非パラメトリックに推定され,そして,その分散が,たとえそうでないならば,その分散が最適であるならば,逆比例重みづけに依存する。標準,非ロバスト,OPE/Lに対して,これは二重ロバスト(DR)法によって解決されるが,それらは最悪ケース期待値を含むより複雑なDROPE/Lに自然に拡張しない。本論文では,KL-発散不確実性集合を持つDROPE/Lに対する最初のDRアルゴリズムを提案した。評価のため,局所DoublyロバストDROPE(LDR ̄2OPE)を提案し,弱い製品レート条件下で半パラメトリック効率を達成することを示した。局在化技術のおかげで,LDR ̄2OPEは,標準OPEのためのDR法のように,少数の回帰のフィッティングを必要とするだけであった。学習のために,著者らは,連続する連続的ロバストDROPL(CDR ̄2OPL)を提案して,回帰の連続体を含む製品レート条件の下で,未知の傾向がノンパラメトリックに見積もられるときでさえ,それはO(N ̄-1/2)の速いレレットレートを楽しむことを示した。著者らは,シミュレーションにおいて著者らのアルゴリズムを経験的に検証し,さらに著者らの結果を一般的f-発散不確実性集合に拡張した。【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (3件):
分類
JSTが定めた文献の分類名称とコードです
パターン認識  ,  統計学  ,  人工知能 
タイトルに関連する用語 (4件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る