抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
本論文では,確率的制御問題のクラスの最適フィードバックポリシーを学習する政策評価において遭遇する,一種の線形分離フォワードバックワード確率微分方程式(FBSDE)を解くために,Deep BSDE-ML法と呼ぶ,測定可能性損失による修正深層BSDE(後方微分方程式)学習法を導入した。測定可能損失を,前方初期時間におけるBSDE状態の測定可能性によって特性評価し,それは既知の深いBSDE方法の端末状態に関連したものとは異なる。2つの損失関数の最小は等しいことを示したが,この測定可能性損失はBSDEの真の拡散項とその近似の間の期待した平均二乗誤差と等しいことを証明した。この重要な観察は,解自体の代わりに偏微分方程式(PDE)の解の勾配を近似する,深いBSDE法の適用を拡張する。同時に,学習ベースのフレームワークを導入し,決定論的非線形システムの最適フィードバック制御を探索した。特に,Gauss探査ノイズを導入することによって,著者らは,この確率的事例の下でロバスト最適制御装置を学ぶことを目指した。この再定式化は,ある程度最適性を犠牲にするが,強化学習(RL)探査ノイズで示唆されるように,モデルフリー学習を可能にするためには必須である。【JST・京大機械翻訳】