Pat
J-GLOBAL ID:200903046002113770

強化学習法を用いたプラントシミュレーション方法

Inventor:
Applicant, Patent owner:
Agent (3): 奥山 尚一 ,  有原 幸一 ,  松島 鉄男
Gazette classification:公開公報
Application number (International application number):2002346993
Publication number (International publication number):2004178492
Application date: Nov. 29, 2002
Publication date: Jun. 24, 2004
Summary:
【課題】ゴミ焼却プラント等は複雑な挙動を示し、同じプラントであっても、異なる挙動を示し、プラントの経年変化によっても挙動が変化する。【解決手段】価値関数を初期状態にし(S1)予め準備されたプラント実機運転データを用いて(S2)入力されたデータ操作量に対して予め作製されたプロセスモデルによりモデル計算を実行して状態量を得て(S3)、前記操作量と計算された状態量とプラント実機運転データを用いて報酬を計算し(S4)複数のパラメータに対して計算された報酬に基づいて強化学習を行なうことにより報酬の合計である収益を最大化するような方策を学習し(S5)所与の状態においてある行動に対して将来期待できる収益を価値関数として求め、これを用いて得られる学習されたパラメータに基づいてシミュレーションを行なう。【選択図】 図2
Claim (excerpt):
(a)価値関数を初期状態にするステップと、 (b)次いで、予め準備されたプラント実機運転データを用いて、ある操作量に対して予め作成されたプロセスモデルによりモデル計算を実行して状態量を得るステップと、 (c)前記操作量と計算された状態量とプラント実機運転データを用いて報酬を計算するステップと、 (d)ステップ(b)とステップ(c)を、プラント実機運転データにおける操作量と状態量との関係を定めるパラメータ空間にある複数のパラメータの各々について繰り返すステップと、 (e)複数のパラメータに対して計算された報酬に基づいて強化学習を行なうことにより報酬の合計である収益を最大化するような方策を、前記価値関数を用いて学習するステップと、 (f)得られた価値関数を用いて得られる学習されたパラメータに基づきシミュレーションを行なうステップと を含んでなるプラント動作のシミュレーション方法。
IPC (7):
G05B13/04 ,  F23G5/50 ,  G05B13/02 ,  G05B23/02 ,  G06F17/60 ,  G06F19/00 ,  G06N3/00
FI (8):
G05B13/04 ,  F23G5/50 Z ,  G05B13/02 L ,  G05B23/02 V ,  G06F17/60 124 ,  G06F17/60 154 ,  G06F19/00 110 ,  G06N3/00 550C
F-Term (20):
3K062AA24 ,  3K062AB01 ,  3K062AC01 ,  3K062DA40 ,  3K062DB30 ,  5H004GA15 ,  5H004GB01 ,  5H004GB20 ,  5H004HA11 ,  5H004HB01 ,  5H004JA03 ,  5H004KC02 ,  5H004KC27 ,  5H223AA01 ,  5H223AA20 ,  5H223BB02 ,  5H223CC08 ,  5H223DD07 ,  5H223EE06 ,  5H223EE11

Return to Previous Page