プレプリント
J-GLOBAL ID:202202212206172160   整理番号:22P0311555

非定常環境のための戦略的後退によるノンパラメトリック確率政策勾配【JST・京大機械翻訳】

Non-Parametric Stochastic Policy Gradient with Strategic Retreat for Non-Stationary Environment
著者 (2件):
資料名:
発行年: 2022年03月24日  プレプリントサーバーでの情報更新日: 2022年03月24日
JST資料番号: O7000B  資料種別: プレプリント
記事区分: プレプリント  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
現代のロボット工学において,動的に変化する環境の下で最適制御政策を効果的に計算することは,深い決定論的政策勾配(DDPG)とTwin遅延深い決定論的政策勾配(TD3)のような,オフ-シェルのパラメトリック政策勾配法に実質的な挑戦を提起する。本論文では,最適制御ポリシーのシーケンスを非パラメトリックに動的に学習するための系統的方法論を提案し,一方,絶えず変化する環境ダイナミックスを自律的に適応させた。特に,著者らのノンパラメトリックカーネルベース方法論は,非縮小ユークリッド空間における特徴としてポリシー分布を埋め込むため,その探索空間を非常に高い(可能性無限)次元RKHS(再生カーネルHilbert空間)として定義することを可能にする。さらに,RKHSで計算された類似性メトリックをレバーグすることにより,いくつかの先行観測状態上でサンプリングされた全動作シーケンスの最適部分を仕上げる時間枠ウィンドウを適応H適応的に選択する手法で,ノンパラメトリック学習を拡大した。提案アプローチを検証するために,動的に変化する環境を備えた複数の古典的ベンチマークと1つのシミュレーションロボットベンチマークによる広範な実験を行った。全体として,著者らの方法論は,学習性能に関してサイズ可能なマージンによって十分に確立されたDDPGとTD3方法論を凌駕した。【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (2件):
分類
JSTが定めた文献の分類名称とコードです
人工知能  ,  システム・制御理論一般 

前のページに戻る