特許
J-GLOBAL ID:202003016351609564
ニューラルエピソード制御
発明者:
,
,
,
出願人/特許権者:
代理人 (3件):
村山 靖彦
, 実広 信哉
, 阿部 達彦
公報種別:公表公報
出願番号(国際出願番号):特願2019-546227
公開番号(公開出願番号):特表2020-508527
出願日: 2018年02月26日
公開日(公表日): 2020年03月19日
要約:
方法は、複数の行動のそれぞれのための個々のエピソード記憶データを維持することと、エージェントによって対話される環境の現在の状態を特徴付ける現在の観測を受け取ることと、現在の観測に関する現在のキー埋込みを生成するために、埋込みニューラルネットワークのパラメータの現在の値に応じて埋込みニューラルネットワークを使用して現在の観測を処理することと、複数の行動の各行動について、距離測定に応じて、現在のキー埋込みに対する、行動のためのエピソード記憶データ内のp近傍キー埋込みを判断することと、および行動のためのエピソード記憶データ内のp近傍キー埋込みによってマッピングされるリターン推定から、行動に関するQ値を判断することと、行動に関するQ値を使用して、エージェントによって行われることになる行動として行動を複数の行動から選択することと、を含む。
請求項(抜粋):
1つまたは複数のコンピュータによって、複数の行動の各行動のための個々のエピソード記憶データを維持するステップであって、各行動のための前記エピソード記憶データが、個々の複数のキー埋込みのそれぞれを個々のリターン推定にマッピングする、ステップと、
前記1つまたは複数のコンピュータによって、エージェントによって対話される環境の現在の状態を特徴付ける現在の観測を受け取るステップと、
前記1つまたは複数のコンピュータによって、前記現在の観測に関する現在のキー埋込みを生成するために、埋込みニューラルネットワークのパラメータの現在の値に応じて前記埋込みニューラルネットワークを使用して前記現在の観測を処理するステップと、
前記複数の行動の各行動について、
1つまたは複数のコンピュータによって、距離測定に応じて、前記現在のキー埋込みに対する、前記行動のための前記エピソード記憶データ内のp近傍キー埋込みを判断するステップ、および
1つまたは複数のコンピュータによって、前記行動のための前記エピソード記憶データ内の前記p近傍キー埋込みによってマッピングされる前記リターン推定から、前記行動に関するQ値を判断するステップであって、前記行動に関する前記Q値が、前記現在の観測に応答して前記行動を行う前記エージェントから生じることになる予測されるリターンである、ステップと、
前記1つまたは複数のコンピュータによって、また前記行動に関する前記Q値を使用して、前記現在の観測に応答して前記エージェントによって行われることになる行動として前記行動を前記複数の行動から選択するステップとを含む、
方法。
IPC (2件):
FI (2件):
引用文献:
出願人引用 (2件)
-
Model-Free Episodic Control
-
Control of Memory, Active Perception, and Action in Minecraft
前のページに戻る