特許
J-GLOBAL ID:202003019064856282

強化学習方法、強化学習プログラム、および強化学習装置

発明者:
出願人/特許権者:
代理人 (1件): 酒井 昭徳
公報種別:公開公報
出願番号(国際出願番号):特願2019-008512
公開番号(公開出願番号):特開2020-119139
出願日: 2019年01月22日
公開日(公表日): 2020年08月06日
要約:
【課題】強化学習による学習効率の向上を図ること。【解決手段】価値関数学習部403は、単位学習ステップを実施し、受け付けた風力発電設備400の状態や風力発電設備400の報酬、および、風力発電設備400に対する行動に基づいて、価値関数を学習する。経験度算出部404は、受け付けた風力発電設備400の状態や風力発電設備400の報酬、および、風力発電設備400に対する行動に基づいて、経験度関数を更新する。経験度算出部404は、経験度関数に基づいて、風力発電設備400の今回の状態または行動の経験度、および、他の状態または行動の経験度を算出する。価値関数補正部405は、価値関数および経験度に基づいて、価値関数をさらに更新するか否かを判断する。価値関数補正部405は、価値関数を更新すると判断した場合、単調性を利用して、価値関数および経験度に基づいて、価値関数を更新する。【選択図】図4
請求項(抜粋):
制御対象の状態または行動に対する価値の特性に単調性を有する価値関数を学習する単位学習ステップを繰り返す強化学習における前記単位学習ステップごとに、前記価値関数の表現に用いられる基底関数を用いて、前記単位学習ステップに用いた前記制御対象の状態または行動の、前記強化学習に対する寄与度を算出し、 前記単位学習ステップ後の前記価値関数、および、算出した前記寄与度に基づいて、前記価値関数を更新するか否かを判断し、 前記価値関数を更新すると判断した場合、前記価値関数を更新する、 処理をコンピュータが実行することを特徴とする強化学習方法。
IPC (1件):
G06N 20/00
FI (1件):
G06N99/00 150
引用特許:
出願人引用 (1件)
引用文献:
出願人引用 (2件)
  • "An analysis of linear models, linear value-function approximation, and feature selection for reinfo
  • "An Adaptive Network-Based Reinforcement Learning Method for MPPT Control of PMSG Wind Energy Conver

前のページに戻る