遺伝的カリキュラムによるロバストな強化学習【JST・京大機械翻訳】

Song Yeeho; Schneider Jeff

プレプリント

J-GLOBAL ID：202202203780458804 整理番号：22P0291005

遺伝的カリキュラムによるロバストな強化学習【JST・京大機械翻訳】

Robust Reinforcement Learning via Genetic Curriculum

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (2件)： ,
資料名：
発行年： 2022年02月16日プレプリントサーバーでの情報更新日： 2022年02月16日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

安全クリティカルシステムにおける深い強化学習(RL)を適用するとき,ロバスト性能を達成することが重要である。最新の手法の幾つかは,敵対者による問題に対処する試みであるが,これらのエージェントは,しばしば,専門家の監督を微調整し,訓練者に挑戦するのを防ぐため,専門家の監督を必要とすることが多い。他の手法は訓練中の環境設定を自動的に調整することを含むが,低次元符号化が使用できる単純な環境に限定される。これらのアプローチに触発され,エージェントが現在失敗し,エージェントがシナリオを解決し,よりロバストな行動を獲得するための関連カリキュラムを生成するシナリオを自動的に同定するアルゴリズムである,遺伝的カリキュラムを提案する。ノンパラメトリック最適化器として,この手法は,シナリオの生,非固定符号化を使用し,エキスパート監視の必要性を低減し,著者らのアルゴリズムをエージェントの変化する性能に適合させることを可能にする。著者らの経験的研究は,最新のアルゴリズムの既存の状態に対するロバスト性の改善を示し,累積報酬を犠牲にすることなく,エージェントが2~8x倍になるような訓練カリキュラムを提供する。アブレーション研究を含み,著者らのアルゴリズムが事前手法より優れている理由に関する洞察を共有した。【JST・京大機械翻訳】

, , , , , , , , , , ,
, , , 【Automatic Indexing@JST】

人工知能

, , ,

前のページに戻る