クロスエントロピーと勾配ベース最適化によるモデル予測制御【JST・京大機械翻訳】

Bharadhwaj Homanga; Xie Kevin; Shkurti Florian

プレプリント

J-GLOBAL ID：202202203206415358 整理番号：22P0136517

クロスエントロピーと勾配ベース最適化によるモデル予測制御【JST・京大機械翻訳】

Model-Predictive Control via Cross-Entropy and Gradient-Based Optimization

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (3件)： , ,
資料名：
発行年： 2020年04月18日プレプリントサーバーでの情報更新日： 2020年04月18日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

学習動力学と報酬モデルによる高次元モデル予測制御とモデルベース強化学習における最近の研究は,一連の行動を計画するためのクロスエントロピー法(CEM)のような集団ベース最適化法に頼っている。行動を取り入れるために,CEMは動的モデルと報酬に従って最も高いリターンで行動シーケンスの探索を行う。行動シーケンスは典型的に無条件Gauss分布からランダムにサンプリングされ,環境上で評価された。この分布は,より高いリターンで行動シーケンスに向けて反復的に更新される。しかし,この計画法は,特に高次元動作空間に対して非常に非効率である。アプローチの代替ラインは,勾配降下を介して直接行動シーケンスを最適化するが,局所最適になる傾向がある。行動シーケンスの最適化においてCEMと勾配降下ステップをインタリービングすることによって,この計画問題を解決する方法を提案した。著者らの実験は,高次元動作空間,局所極小の回避,およびCEMに対するより良いまたは等しい性能でさえ,提案したハイブリッドアプローチのより速い収束を示した。本論文に付随するコードは,ここでhttps://github.com/homangab/gradcemに利用可能である。【JST・京大機械翻訳】

, , , , , , , , ,
, , , , 【Automatic Indexing@JST】

人工知能 , その他のオペレーションズリサーチの手法

, , ,

前のページに戻る