抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
ロバスト性,移動学習,教師なしRL,および緊急複雑性を含む広範囲の強化学習(RL)問題は,政策が訓練されるタスクまたは環境の分布を指定する。しかし,環境の有用な分布を作り出すことは,誤差傾向であり,大量の開発者時間と努力を取る。開発者が未知のパラメータを持つ環境を提供する代替パラダイムとして教師なし環境設計(UED)を提案し,これらのパラメータを用いて,有効,可解な環境上の分布を自動的に生成する。自動的に環境を発生させるための既存の手法は,共通故障モードに悩まされる:ドメインランダム化は,構造を生成することができない,またはエージェントの学習進捗への環境の困難さを適応できず,そして,ミニマックス広告訓練は,しばしば解決できない最悪ケース環境に導く。構造化,可解性環境を生成するために,著者らは,環境生成敵対者と対立する第2のアンタゴニスト剤を導入した。敵対は,原生剤とアンタゴニストのリターンの間の差として定義される,レレットを最大化する環境を生成する動機である。著者らは,著者らの技術Protactor Antアゴニスト Regret Environment Design(PAIRED)と呼ぶ。著者らの実験は,PAIREDがますます複雑な環境の自然なカリキュラムを生み出して,PAIREDエージェントが,非常に新しい環境でテストしたとき,より高いゼロショット移動性能を達成することを実証した。【JST・京大機械翻訳】