より速い再訓練のための抑制ネットワークによるソフトアクター-クリティック【JST・京大機械翻訳】

Ide Jaime S.; Micovic Daria; Guarino Michael J.; Alcedo Kevin; Rosenbluth David; Pope Adrian P.

プレプリント

J-GLOBAL ID：202202205901905440 整理番号：22P0285530

より速い再訓練のための抑制ネットワークによるソフトアクター-クリティック【JST・京大機械翻訳】

Soft Actor-Critic with Inhibitory Networks for Faster Retraining

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (6件)： , , , , ,
資料名：
発行年： 2022年02月06日プレプリントサーバーでの情報更新日： 2022年02月07日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

以前に訓練されたモデルの再利用は,新しいエージェントの訓練をスピードアップするための深い強化学習において重要である。しかし,目的と制約が以前に学習されたスキルと矛盾しているとき,新しいスキルを獲得する方法は不明である。さらに,再訓練時に,既に学習され,新しいスキルを探索することの間に,固有の矛盾がある。ソフトアクター-クリット(SAC)法では,温度パラメータを動的に調整し,動作エントロピーを重み付けし,探索×利用トレードオフをバランスさせる。しかし,単一係数を制御することは,目標が相反する時でさえ,再訓練の文脈の中で挑戦的である。本研究では,神経科学研究に触発されて,別個の自動エントロピー調整と同様に,分離および適応状態値評価を可能にするための抑制ネットワークを用いた新しい方法を提案した。最後に,この手法は,より困難なタスクを克服するための,より少ないリスク,獲得行動,および新しいものを探索することの間の矛盾を扱うための抑制制御を可能にする。OpenAI Gym環境における実験により提案手法を検証した。【JST・京大機械翻訳】

, , , , , , , ,
, 【Automatic Indexing@JST】

人工知能

, ,

前のページに戻る