オフライン強化学習のための敵対的に訓練されたアクター批判【JST・京大機械翻訳】

Cheng Ching-An; Xie Tengyang; Jiang Nan; Agarwal Alekh

プレプリント

J-GLOBAL ID：202202213754242122 整理番号：22P0285058

オフライン強化学習のための敵対的に訓練されたアクター批判【JST・京大機械翻訳】

Adversarially Trained Actor Critic for Offline Reinforcement Learning

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (4件)： , , ,
資料名：
発行年： 2022年02月04日プレプリントサーバーでの情報更新日： 2022年07月05日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

相対的 p観主義の概念に基づいて,不十分なデータカバレージの下でオフライン強化学習(RL)のための新しいモデルフリーアルゴリズムであるAdversarily Trained Actor Crit(ATAC)を提案した。ATACは,2層Stackelbergゲームとして設計され,ポリシーアクターは,敵対的に訓練された価値批判に対して競合し,アクターがデータ収集行動政策に劣っているデータコンシステントなシナリオを見つける。著者らは,アクターが2層ゲームにおいてレグレットを達成しないとき,ATACの実行は, p観主義の程度を制御する広範囲のハイパーパラメータにわたって行動政策を凌駕し,そして2)適切に選ばれたハイパーパラメータを持つデータによってカバーされた最良のポリシーと競合するという政策を生成する。既存の研究と比較して,このフレームワークは,一般的関数近似のための理論的保証と複雑な環境と大きなデータセットにスケーラブルな深いRL実装の両方を提供する。D4RLベンチマークでは,ATACは,一連の連続制御タスクにおいて,最先端のオフラインRLアルゴリズムよりも一貫して優れている。【JST・京大機械翻訳】

, , , , , , , , ,
, , , , , 【Automatic Indexing@JST】

人工知能

, , , ,

前のページに戻る