特許
J-GLOBAL ID:202003019743156796

ニューラルネットワークを使用する強化学習のための行動選択

発明者:
出願人/特許権者:
代理人 (3件): 村山 靖彦 ,  実広 信哉 ,  阿部 達彦
公報種別:公表公報
出願番号(国際出願番号):特願2019-546129
公開番号(公開出願番号):特表2020-508524
出願日: 2018年02月19日
公開日(公表日): 2020年03月19日
要約:
環境と相互作用するエージェントによって遂行される行動を選択するように構成されたシステム用の、コンピュータ記憶媒体上に符号化されたコンピュータプログラムを含む、方法、システム、および装置。このシステムは、マネージャニューラルネットワークサブシステムおよびワーカニューラルネットワークサブシステムを備える。マネージャサブシステムは、複数の時間ステップの各々において、時間ステップに関する最終的な目標ベクトルを生成するように構成されている。ワーカサブシステムは、複数の時間ステップの各々において、マネージャサブシステムによって生成された最終的な目標ベクトルを使用して、所定の行動セットにおける各行動に関するそれぞれの行動スコアを生成するように構成されている。
請求項(抜粋):
所定の行動セットからの行動を遂行することによって環境と相互作用するエージェントが遂行する行動を選択するためのシステムであって、 複数の時間ステップの各々において、 前記時間ステップにおける前記環境の現在の状態の中間表現を受け取る工程と、 前記中間表現を潜在状態空間における前記現在の状態の潜在表現にマッピングする工程と、 目標回帰型ニューラルネットワークを使用して前記潜在表現を処理する工程であって、前記目標回帰型ニューラルネットワークが、前記潜在表現を受け取り、前記潜在表現を、前記目標回帰型ニューラルネットワークの現在の隠れ状態に従って処理して、前記時間ステップについて、目標空間における初期の目標ベクトルを生成し、前記目標回帰型ニューラルネットワークの内部状態を更新するように構成される、処理する工程と、 前記時間ステップに関する前記初期の目標ベクトルと、1つまたは複数の以前の時間ステップに関する初期の目標ベクトルとをプールして、前記時間ステップに関する最終的な目標ベクトルを生成する工程と を行うように構成されている、マネージャニューラルネットワークサブシステムと、 前記複数の時間ステップの各々において、 前記時間ステップにおける前記環境の前記現在の状態の前記中間表現を受け取る工程と、 前記中間表現を、前記所定の行動セットの各行動に関する、埋め込み空間におけるそれぞれの行動埋め込みベクトルにマッピングする工程と、 前記時間ステップに関する前記目標空間からの前記最終的な目標ベクトルを前記埋め込み空間へ射影して目標埋め込みベクトルを生成する工程と、 前記目標埋め込みベクトルによる各行動に関する前記それぞれの行動埋め込みベクトルを調整して、前記所定の行動セットにおける各行動に関するそれぞれの行動スコアを生成する工程と を行うように構成されている、ワーカニューラルネットワークサブシステムと、 前記複数の時間ステップの各々において、 前記時間ステップにおける前記環境の前記現在の状態を特徴付ける観測を受け取る工程と、 前記観測から前記中間表現を生成する工程と、 前記中間表現を、前記マネージャニューラルネットワークに入力として供給して、前記時間ステップに関する前記最終的な目標ベクトルを生成する工程と、 前記中間表現および前記最終的な目標ベクトルを前記ワーカニューラルネットワークに入力として供給して前記行動スコアを生成する工程と、 前記行動スコアを使用して、前記所定の行動セットから、前記エージェントによって前記観測に応答して遂行される行動を選択する工程と を行うように構成されている、行動選択サブシステムと を備える、システム。
IPC (2件):
G06N 3/04 ,  G06N 20/00
FI (2件):
G06N3/04 ,  G06N20/00
引用特許:
審査官引用 (1件)
引用文献:
審査官引用 (2件)
  • LEARNING AND TRANSFER OF MODULATED LOCOMOTOR CONTROLLERS
  • A CLOCKWORK RNN

前のページに戻る