非定常環境のための戦略的後退によるノンパラメトリック確率政策勾配【JST・京大機械翻訳】

Dastider Apan; Lin Mingjie

プレプリント

J-GLOBAL ID：202202212206172160 整理番号：22P0311555

非定常環境のための戦略的後退によるノンパラメトリック確率政策勾配【JST・京大機械翻訳】

Non-Parametric Stochastic Policy Gradient with Strategic Retreat for Non-Stationary Environment

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (2件)： ,
資料名：
発行年： 2022年03月24日プレプリントサーバーでの情報更新日： 2022年03月24日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

現代のロボット工学において,動的に変化する環境の下で最適制御政策を効果的に計算することは,深い決定論的政策勾配(DDPG)とTwin遅延深い決定論的政策勾配(TD3)のような,オフ-シェルのパラメトリック政策勾配法に実質的な挑戦を提起する。本論文では,最適制御ポリシーのシーケンスを非パラメトリックに動的に学習するための系統的方法論を提案し,一方,絶えず変化する環境ダイナミックスを自律的に適応させた。特に,著者らのノンパラメトリックカーネルベース方法論は,非縮小ユークリッド空間における特徴としてポリシー分布を埋め込むため,その探索空間を非常に高い(可能性無限)次元RKHS(再生カーネルHilbert空間)として定義することを可能にする。さらに,RKHSで計算された類似性メトリックをレバーグすることにより,いくつかの先行観測状態上でサンプリングされた全動作シーケンスの最適部分を仕上げる時間枠ウィンドウを適応H適応的に選択する手法で,ノンパラメトリック学習を拡大した。提案アプローチを検証するために,動的に変化する環境を備えた複数の古典的ベンチマークと1つのシミュレーションロボットベンチマークによる広範な実験を行った。全体として,著者らの方法論は,学習性能に関してサイズ可能なマージンによって十分に確立されたDDPGとTD3方法論を凌駕した。【JST・京大機械翻訳】

, , , , , , , , , ,
, , , , 【Automatic Indexing@JST】

人工知能 , システム・制御理論一般

, , , , , , ,

前のページに戻る