深層強化学習におけるスケーラブルな観測モデルを用いた効率的なBayesポリシー再利用【JST・京大機械翻訳】

Liu Jinmei; Wang Zhi; Chen Chunlin; Dong Daoyi

プレプリント

J-GLOBAL ID：202202201071412717 整理番号：22P0333017

深層強化学習におけるスケーラブルな観測モデルを用いた効率的なBayesポリシー再利用【JST・京大機械翻訳】

Efficient Bayesian Policy Reuse with a Scalable Observation Model in Deep Reinforcement Learning

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (4件)： , , ,
資料名：
発行年： 2022年04月16日プレプリントサーバーでの情報更新日： 2023年07月13日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

※このプレプリント論文は学術誌に掲載済みです。なお、学術誌掲載の際には一部内容が変更されている可能性があります。

Bayes政策再利用(BPR)は,いくつかの観測信号と訓練された観察モデルに基づくタスク信念を推論することにより,オフラインライブラリからソースポリシーを選択するための一般的な政策移転フレームワークである。本論文では,深層強化学習(DRL)におけるより効率的な政策移転を達成するための改良BPR法を提案した。第1に,ほとんどのBPRアルゴリズムは,限られた情報を含む観測信号としてエピソードリターンを使用し,エピソードの終わりまで得ることができない。代わりに,高速かつより正確なタスク推論のための観測信号として,情報と瞬間である状態遷移サンプルを採用した。第2に,BPRアルゴリズムは,通常,表ベースの観測モデルの確率分布を推定するために,多数のサンプルを必要とし,それは,特に信号として状態遷移サンプルを使用するとき,高価で,維持できないかもしれない。したがって,ターゲットタスクにおいて観測された任意の信号に一般化できる少数のサンプルだけからのソースタスクの適合状態遷移関数に基づくスケーラブルな観測モデルを提案した。さらに,新しい未知タスクに直面したときの負の転送を避けることができる,プラグアンドプレイ方式でスケーラブルな観察モデルを拡張することにより,オフラインモードBPRを連続学習設定に拡張した。実験結果は,著者らの方法がより速く,より効果的な政策移転を一貫して促進することを示した。【JST・京大機械翻訳】

, , , ,
, , , , 【Automatic Indexing@JST】

人工知能

, ,

前のページに戻る