強化学習を用いた実時間最適化【JST・京大機械翻訳】

Powell By Kody M.; Powell By Kody M.; Machalek Derek; Quah Titus

文献

J-GLOBAL ID：202002225577226035 整理番号：20A2477574

強化学習を用いた実時間最適化【JST・京大機械翻訳】

Real-time optimization using reinforcement learning

出版者サイト複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=20A2477574&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=20A2477574&from=J-GLOBAL&jstjournalNo=H0199C") }}

著者 (4件)： , , ,
資料名：
巻： 143 ページ： Null 発行年： 2020年
JST資料番号： H0199C ISSN： 0098-1354 資料種別：逐次刊行物 (A)
記事区分：原著論文発行国：オランダ (NLD) 言語：英語 (EN)

強化学習(RL)を用いたプロセスシステムの実時間最適化(RTO)のための新しい方法論を導入し,外部刺激に対する応答における最適決定をニューラルネットワークに埋め込む。これは,従来のRTO方法論と対照的であり,そこでは,プロセスモデルを最適性のために繰り返し解く。この強化学習実時間最適化方法論(RL-RTO)は,動的制御研究で使用されるものと類似のアクター-批判構造を利用する。しかしながら,ここで提示した方法論は,この研究の新しい特徴である定常状態最適化に対して純粋である。本研究はまた,勾配ベース最適化ソルバが価値ネットワーク(または批判)を訓練するために使用される新しいハイブリッド訓練方法論を提示し,メタヒューリスティック最適化アルゴリズム(粒子群最適化またはPSO)を政策ネットワーク(またはアクター)の訓練に用いた。この新しい訓練アルゴリズムを用いて,RLアプリケーションを表すニューラルネットワークを実時間で更新し,バッチオンライン訓練方法論を用いて更新できる。この技法は,各新しいデータ点が収集された後に,より小さな増分更新ステップを取り入れるよりも,全体のデータセットを利用し,大域的最適を見つける試みを可能にする。プロセスシステム運転とより多くのデータが利用可能になるので,RL-RTOアプリケーションがそれ自身を更新し,真の最適性に近づくのに近づけるように,批判とアクターネットワークをシーケンスで更新できる。プロセスシステム(化学反応器)を実証事例研究として使用し,また,RL-RTOの性能を従来のRTO方法論と比較し,非線形計画法(NLP)最適化技術と組み合わせたシステムの近完全第一原理モデルを使用した。これらの方法の各々を,システムの製品スループットが最大になる,ブート力操作方法論と比較した。RL-RTO応用は,反応器の年間利益を9.6%改善するので,有望であることを示した。比較によって,第1原理とNLP方法は,17.2%によって利益を改良した。これらのRL-RTOの結果は,有望なが,RL-RTOが従来の方法に対する実行可能な競争者であるためには,まだより多くの開発が必要であることを示した。Copyright 2020 Elsevier B.V., Amsterdam. All rights reserved. Translated from English into Japanese by JST.【JST・京大機械翻訳】

, , , , , , , , , , ,
, , , 【Automatic Indexing@JST】

化学プロセスの解析 , システム最適化手法 , 化学プロセスの制御 , 計算機システム開発

前のページに戻る