プレプリント
J-GLOBAL ID:202202218711334815   整理番号:22P0294786

スパース報酬のある環境における異種強化学習エージェントの協調訓練:何時といつ共有するか?【JST・京大機械翻訳】

Collaborative Training of Heterogeneous Reinforcement Learning Agents in Environments with Sparse Rewards: What and When to Share?
著者 (3件):
資料名:
発行年: 2022年02月24日  プレプリントサーバーでの情報更新日: 2022年02月24日
JST資料番号: O7000B  資料種別: プレプリント
記事区分: プレプリント  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
人間の生活の初期段階において, bは,環境からの外因性報酬によるよりも,固有の満足によって動機づけられた異なるシナリオを探索することによって,それらのスキルを発達させる。固有動機と呼ばれるこの挙動は,スパース報酬による強化学習環境に由来する探査課題に対処する一つの解決策として浮上している。多様な探索手法を提案し,均一エージェントによる単一およびマルチエージェント問題に対する学習プロセスを加速した。しかし,同じ環境へ展開された異種エージェント間の協調学習フレームワークについてはほとんど研究されていないが,事前知識なしに後者の異なるインスタンスと相互作用する。不均一性を越えて,各エージェントの特性は,異なる探索戦略と最適解を隠す完全な状態空間の部分集合のみにアクセスする。本研究では,固有動機と転送学習からアイデアを組み合わせた。特に,アクター-批評モデルアーキテクチャにおける共有パラメータ,およびより効果的な探索とより速い学習を持つ目的を持つ固有動機を通して得られた情報を組み合わせることに焦点を当てた。修正ViZDooMのMy Way Homeシナリオ上で行った実験を通じて,著者らの戦略を試験し,それは元のバージョンよりも挑戦的であり,エージェント間の不均一性の評価を可能にする。著者らの結果は,少ない付加的計算コストを有する協調フレームワークが知識共有なしで独立した学習プロセスを凌ぐことができる異なる方法を明らかにする。さらに,望ましくないエージェント行動を避けるため,外因性と内因性報酬の間の重要性を正しく調整する必要性を示した。【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (1件):
分類
JSTが定めた文献の分類名称とコードです
人工知能 

前のページに戻る