特許
J-GLOBAL ID:201803008879767667

Q学習を用いたニューラルネットワークの重み付け調整のためのプログラム、システム、及び方法

発明者:
出願人/特許権者:
代理人 (2件): 村越 智史 ,  今村 光広
公報種別:公開公報
出願番号(国際出願番号):特願2016-202021
公開番号(公開出願番号):特開2018-063602
出願日: 2016年10月13日
公開日(公表日): 2018年04月19日
要約:
【課題】ゲームパラメータを入力値としゲームキャラクタの各行動による見込み報酬Qを出力値とするニューラルネットワーク(NN)の重み付けをQ学習により改善する。【解決手段】ゲームキャラクタに関するゲームパラメータを第1の入力値として抽出するステップ、第1の入力値に基づき、ニューラルネットワーク(NN)からゲームキャラクタの各行動による第1の見込み報酬(Q値)を出力値として抽出するステップと、各行動の中からの1つの選択・実行後の前記ゲームパラメータを第2の入力値として抽出するステップと、第2の入力値に基づき、ニューラルネットワーク(NN)からゲームキャラクタの各行動による第2の見込み報酬(Q値)を算出するステップと、第1の見込み報酬(Q値)と第2の見込み報酬(Q値)に基づき、1又は複数層で構成されるニューラルネットワーク(NN)のパラメータを更新するステップと、を複数回繰り返し実行する。【選択図】図3
請求項(抜粋):
Q学習を用いて1又は複数層で構成されるニューラルネットワーク(NN)のパラメータを調整する方法であって、 1又は複数のコンピュータ上で実行されることに応じて、当該1又は複数のコンピュータに、 1又は複数のゲームキャラクタに関するゲームパラメータを第1の入力値として抽出するステップ、 該第1の入力値に基づき、前記ニューラルネットワーク(NN)からゲームキャラクタの各行動による第1の見込み報酬(Q値)を出力値として抽出するステップと、 該各行動の中からの1つの選択・実行後の前記ゲームパラメータを第2の入力値として抽出するステップと、 該第2の入力値に基づき、前記ニューラルネットワーク(NN)からゲームキャラクタの各行動による第2の見込み報酬(Q値)を算出するステップと、 前記第1の見込み報酬(Q値)と前記第2の見込み報酬(Q値)に基づき、1又は複数層で構成されるニューラルネットワーク(NN)のパラメータを更新するステップと、 を複数回繰り返し実行させることを特徴とするQ学習を用いたニューラルネットワーク(NN)のパラメータを調整する方法。
IPC (4件):
G06N 99/00 ,  A63F 13/58 ,  A63F 13/45 ,  G06N 3/08
FI (4件):
G06N99/00 150 ,  A63F13/58 ,  A63F13/45 ,  G06N3/08
引用特許:
出願人引用 (3件) 審査官引用 (3件)
引用文献:
出願人引用 (1件)
  • 機械学習と深層学習, 20160525, 第1版, 第56-63頁
審査官引用 (1件)
  • 機械学習と深層学習, 20160525, 第1版, 第56-63頁

前のページに戻る