頂点ネットワークによる制御アフィンシステムの安全な強化学習【JST・京大機械翻訳】

Zheng Liyuan; Shi Yuanyuan; Ratliff Lillian J.; Zhang Baosen

プレプリント

J-GLOBAL ID：202202208333003826 整理番号：22P0125346

頂点ネットワークによる制御アフィンシステムの安全な強化学習【JST・京大機械翻訳】

Safe Reinforcement Learning of Control-Affine Systems with Vertex Networks

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (4件)： , , ,
資料名：
発行年： 2020年03月20日プレプリントサーバーでの情報更新日： 2020年03月20日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

本論文は,ハード状態と行動制約を有する制御システムのための強化学習政策を見つけることに焦点を合わせる。多くの分野での成功にもかかわらず,強化学習は,特に状態変数と行動が制約される場合,ハード制約のある問題に適用するのに挑戦している。制約満足感,または安全性を確実にする以前の研究は,学習された政策に投影ステップを追加することに焦点を合わせている。しかし,この手法は,あらゆる政策実行段階で最適化問題を解くことを必要とし,それは重要な計算コストをもたらす。この問題に取り組むために,本論文では,探索中の安全性と,安全制約を政策ネットワークアーキテクチャに組み込むことにより学習された制御ポリシーの保証により,Vertexネットワーク(VN)と呼ばれる新しいアプローチを提案する。凸集合内のすべての点が頂点の凸結合として表現できるという幾何学的特性に,提案アルゴリズムは最初に凸結合重みを学習し,次に,事前計算頂点とともにこれらの重みを用いて,動作を出力した。出力動作は,建設によって安全であることを保証した。数値例は,提案したVNアルゴリズムが様々なベンチマーク制御タスクにおいてバニラ強化学習より優れていることを示した。【JST・京大機械翻訳】

, , , , , , , , , , , ,
, , 【Automatic Indexing@JST】

システム設計・解析

前のページに戻る