AutoDIME:興味深いマルチエージェント環境の自動設計【JST・京大機械翻訳】

Kanitscheider Ingmar; Edwards Harri

プレプリント

J-GLOBAL ID：202202214875207797 整理番号：22P0299131

AutoDIME:興味深いマルチエージェント環境の自動設計【JST・京大機械翻訳】

AutoDIME: Automatic Design of Interesting Multi-Agent Environments

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (2件)： ,
資料名：
発行年： 2022年03月04日プレプリントサーバーでの情報更新日： 2022年03月04日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

RLエージェントが興味深く,有用なスキルを学習できる環境の分布を設計することは,マルチエージェント環境に対して困難であり,あまり理解されていないタスクである。1つの方法は,学生エージェントの学習に役立つ環境をサンプリングする教師と呼ばれる第2のRLエージェントを訓練することである。しかし,教師報酬に対するほとんどの以前の提案は,マルチエージェント設定に直接一般化しない。マルチエージェント設定で適用可能な予測問題に由来する一連の固有教師報酬を調べ,マルチエージェントHideとSeekのようなMujocoタスクと診断単一エージェント迷路タスクにおいてそれらを評価する。考察された固有報酬の中で,著者らは,HideおよびSeekおよび迷路タスクにおける先進的スキルのより速く,より信頼できる出現に導く,タスクを通して最も一貫した値不一致を見出した。もう一つの候補固有報酬,価値予測誤差も,HideとSeekでよく働くが,確率的環境における雑音TVスタイルの混乱に敏感であった。政策の不一致は,迷路タスクでよく行われたが,HideとSeekでは学習をスピードアップしなかった。著者らの結果は,固有の教師報酬と特に価値不一致が,単一およびマルチエージェント環境設計の両方の自動化のための有望な方法であることを示唆する。【JST・京大機械翻訳】

, , , , ,
, 【Automatic Indexing@JST】

人工知能

, ,

前のページに戻る