ニューラル・プログレッシブ・ヘッギング:確率的プログラミングによる強化学習における制約の強制【JST・京大機械翻訳】

Ghosh Supriyo; Wynter Laura; Lim Shiau Hong; Nguyen Duc Thien

プレプリント

J-GLOBAL ID：202202217977383661 整理番号：22P0296048

ニューラル・プログレッシブ・ヘッギング:確率的プログラミングによる強化学習における制約の強制【JST・京大機械翻訳】

Neural-Progressive Hedging: Enforcing Constraints in Reinforcement Learning with Stochastic Programming

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (4件)： , , ,
資料名：
発行年： 2022年02月27日プレプリントサーバーでの情報更新日： 2022年02月27日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

強化学習(RL)ポリシーを実行するオンラインフェーズ中に確率的プログラミングを活用する,ニューラルプログレッシブヘッジング(NP)と呼ばれるフレームワークを提案した。目的は,政策調整を導くための状態遷移の確率的モデルを用いて,政策実行中の条件付き価値リスク(CVaR)のような制約とリスクベース目的に関する実現可能性を確実にすることである。フレームワークは,典型的な資源制約に関する実現可能性がスケーラブルな方法で実行できないので,逐次資源割当て問題のクラスに特に適している。NPフレームワークは,オンラインフェーズの間に中程度のオーバヘッドを加える代替を提供する。実験結果は,2つの連続実世界タスクに対するNPフレームワークの有効性を実証した。(i)非定常状態分布によって特徴づけられた金融計画のための流動性制約によるポートフォリオ最適化問題;および(ii)バイク共有システムにおける動的再配置問題,それは供給要求マッチング問題のクラスを具体化する。NPフレームワークは,深いRLや他のベースライン手法よりも良い政策を生成し,非定常性に適応し,一方,構造的制約を満たし,得られた政策におけるリスク対策を収容する。NPフレームワークの付加的利点は,実施の容易さと政策のより良い説明性である。【JST・京大機械翻訳】

, , , , , , , , , ,
, , , , , 【Automatic Indexing@JST】

人工知能 , 数値計算

, , ,

前のページに戻る