プレプリント
J-GLOBAL ID:202202211433582247   整理番号:21P0038676

単一デモンストレーションを用いた近位ポリシー最適化による誘導探索【JST・京大機械翻訳】

Guided Exploration with Proximal Policy Optimization using a Single Demonstration
著者 (2件):
資料名:
発行年: 2020年07月07日  プレプリントサーバーでの情報更新日: 2021年06月16日
JST資料番号: O7000B  資料種別: プレプリント
記事区分: プレプリント  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
探査による疎な報酬タスクの解決は,特に3次元,部分観測可能な環境において,深い強化学習における主要な課題の1つである。批判的に,本論文で提案したアルゴリズムは,ハード探索問題を解決するために単一の人間実証を使用する。可変初期条件の問題を解決するために,実証と自身の経験の組み合わせでエージェントを訓練する。このアイデアを適応し,それを近位政策最適化(PPO)と統合した。エージェントは,その性能を増加でき,得られた報酬と軌道の最大値に基づいて,それらを優先順位付けする前に,それ自身の過去の軌道を再生することによって,より困難な問題に取り組むことができる。動物-AIオリンピック環境における一連のハード探索タスクに関する行動クローニングに対するこのアルゴリズムの異なる変動を比較した。知る限りでは,1つの人間実証のみを使用する前に,同等の困難を有する3次元環境におけるタスクの学習はこれまで考慮されていない。【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (1件):
分類
JSTが定めた文献の分類名称とコードです
人工知能 
タイトルに関連する用語 (4件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る