エージェント結合装置、方法、及びプログラム

発明者： , ,
出願人/特許権者：
代理人 (1件)：弁理士法人太陽国際特許事務所
公報種別：特許公報
出願番号（国際出願番号）：特願2019-005326
公開番号（公開出願番号）：特開2020-113192
特許番号：特許第7225813号
出願日： 2019年01月16日
公開日（公表日）： 2020年07月27日
請求項（抜粋）：

【請求項1】複数の部品タスクの重み付け和で表現される全体タスクを解くエージェントの行動の方策を求めるための価値関数について、前記複数の部品タスクの各々に対する重みを用いた、前記複数の部品タスクの各々に対する、前記部品タスクを解く部品エージェントの行動の方策を求めるための予め学習された複数の部品価値関数の重み付き和である全体価値関数について、前記複数の部品タスクの各々についての前記部品価値関数を近似するように予め学習されたニューラルネットワークに対して、前記複数の部品タスクの各々に対する重みで重み付けて出力する層を追加して構成されるニューラルネットワークを、前記全体価値関数を近似するニューラルネットワークとして求めるエージェント結合部と、前記ニューラルネットワークから得た方策を用いて、前記全体タスクに対するエージェントの行動を決定し、前記エージェントに行動させる実行部と、を含むエージェント結合装置。

IPC (1件)：

G06N 20/00 ( 201 9.01)

FI (1件)：

G06N 20/00

引用文献：

審査官引用 (1件)

Dynamic preferences in multi-criteria reinforcement learning

前のページに戻る