単一デモンストレーションを用いた近位ポリシー最適化による誘導探索【JST・京大機械翻訳】

Libardi Gabriele; De Fabritiis Gianni

プレプリント

J-GLOBAL ID：202202211433582247 整理番号：21P0038676

単一デモンストレーションを用いた近位ポリシー最適化による誘導探索【JST・京大機械翻訳】

Guided Exploration with Proximal Policy Optimization using a Single Demonstration

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (2件)： ,
資料名：
発行年： 2020年07月07日プレプリントサーバーでの情報更新日： 2021年06月16日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

探査による疎な報酬タスクの解決は,特に3次元,部分観測可能な環境において,深い強化学習における主要な課題の1つである。批判的に,本論文で提案したアルゴリズムは,ハード探索問題を解決するために単一の人間実証を使用する。可変初期条件の問題を解決するために,実証と自身の経験の組み合わせでエージェントを訓練する。このアイデアを適応し,それを近位政策最適化(PPO)と統合した。エージェントは,その性能を増加でき,得られた報酬と軌道の最大値に基づいて,それらを優先順位付けする前に,それ自身の過去の軌道を再生することによって,より困難な問題に取り組むことができる。動物-AIオリンピック環境における一連のハード探索タスクに関する行動クローニングに対するこのアルゴリズムの異なる変動を比較した。知る限りでは,1つの人間実証のみを使用する前に,同等の困難を有する3次元環境におけるタスクの学習はこれまで考慮されていない。【JST・京大機械翻訳】

, , , , , ,
, , 【Automatic Indexing@JST】

人工知能

, , ,

前のページに戻る