抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
学習動力学と報酬モデルによる高次元モデル予測制御とモデルベース強化学習における最近の研究は,一連の行動を計画するためのクロスエントロピー法(CEM)のような集団ベース最適化法に頼っている。行動を取り入れるために,CEMは動的モデルと報酬に従って最も高いリターンで行動シーケンスの探索を行う。行動シーケンスは典型的に無条件Gauss分布からランダムにサンプリングされ,環境上で評価された。この分布は,より高いリターンで行動シーケンスに向けて反復的に更新される。しかし,この計画法は,特に高次元動作空間に対して非常に非効率である。アプローチの代替ラインは,勾配降下を介して直接行動シーケンスを最適化するが,局所最適になる傾向がある。行動シーケンスの最適化においてCEMと勾配降下ステップをインタリービングすることによって,この計画問題を解決する方法を提案した。著者らの実験は,高次元動作空間,局所極小の回避,およびCEMに対するより良いまたは等しい性能でさえ,提案したハイブリッドアプローチのより速い収束を示した。本論文に付随するコードは,ここでhttps://github.com/homangab/gradcemに利用可能である。【JST・京大機械翻訳】