教師なし環境設計による緊急複雑性とゼロショット転送【JST・京大機械翻訳】

Dennis Michael; Jaques Natasha; Vinitsky Eugene; Bayen Alexandre; Russell Stuart; Critch Andrew; Levine Sergey

プレプリント

J-GLOBAL ID：202202209876691656 整理番号：21P0065609

教師なし環境設計による緊急複雑性とゼロショット転送【JST・京大機械翻訳】

Emergent Complexity and Zero-shot Transfer via Unsupervised Environment Design

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (7件)： , , , , , ,
資料名：
発行年： 2020年12月03日プレプリントサーバーでの情報更新日： 2021年02月03日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

ロバスト性,移動学習,教師なしRL,および緊急複雑性を含む広範囲の強化学習(RL)問題は,政策が訓練されるタスクまたは環境の分布を指定する。しかし,環境の有用な分布を作り出すことは,誤差傾向であり,大量の開発者時間と努力を取る。開発者が未知のパラメータを持つ環境を提供する代替パラダイムとして教師なし環境設計(UED)を提案し,これらのパラメータを用いて,有効,可解な環境上の分布を自動的に生成する。自動的に環境を発生させるための既存の手法は,共通故障モードに悩まされる:ドメインランダム化は,構造を生成することができない,またはエージェントの学習進捗への環境の困難さを適応できず,そして,ミニマックス広告訓練は,しばしば解決できない最悪ケース環境に導く。構造化,可解性環境を生成するために,著者らは,環境生成敵対者と対立する第2のアンタゴニスト剤を導入した。敵対は,原生剤とアンタゴニストのリターンの間の差として定義される,レレットを最大化する環境を生成する動機である。著者らは,著者らの技術Protactor Antアゴニスト Regret Environment Design(PAIRED)と呼ぶ。著者らの実験は,PAIREDがますます複雑な環境の自然なカリキュラムを生み出して,PAIREDエージェントが,非常に新しい環境でテストしたとき,より高いゼロショット移動性能を達成することを実証した。【JST・京大機械翻訳】

, , , , , ,
, , , , , , , 【Automatic Indexing@JST】

人工知能

, , , ,

前のページに戻る