分岐強化学習【JST・京大機械翻訳】

Du Yihan; Chen Wei

プレプリント

J-GLOBAL ID：202202201970512853 整理番号：22P0290607

分岐強化学習【JST・京大機械翻訳】

Branching Reinforcement Learning

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (2件)： ,
資料名：
発行年： 2022年02月16日プレプリントサーバーでの情報更新日： 2022年06月15日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

本論文では,新しい分岐強化学習(Branching RL)モデルを提案し,このモデルに対するRegret最小化(RM)とReward-Free Exploration(RFE)メトリックの両方を調べた。各エピソードの軌跡が単一Hステップ経路である標準RLとは異なり,分岐RLは,遷移が複数の成功者状態に対応して,従ってツリー構造軌道を生成するような状態で複数のベース行動を取るエージェントを可能にする。このモデルは,階層的推薦システムとオンライン広告において重要な応用を見出す。分岐RLのために,著者らは新しいBellman方程式と重要な補助定理,すなわち,分岐値差補題と全分散の分岐法則を確立して,指数的に大きい軌道の下でO(H ̄2)だけによって全分散を結合させた。RMとRFE計量に対して,それぞれ,計算効率の良いアルゴリズムBranchVIとBranchRFEを提案し,ほぼ整合する上限と下限を導いた。著者らの結果は,指数的に大きい軌跡にもかかわらず,問題パラメータにおける多項式のみである。【JST・京大機械翻訳】

, , , , , , , ,
, , , , , 【Automatic Indexing@JST】

人工知能

前のページに戻る