最適化装置、最適化方法、及び最適化プログラム

発明者： , , ,
出願人/特許権者： ,
代理人 (1件)：特許業務法人太陽国際特許事務所
公報種別：公開公報
出願番号（国際出願番号）：特願2021-021962
公開番号（公開出願番号）：特開2022-124284
出願日： 2021年02月15日
公開日（公表日）： 2022年08月25日
要約：

【課題】演算に係る効率を向上させることを可能とする。【解決手段】隠れ状態を所定の態様に変更した独自隠れ状態、及び独自隠れ状態における現在の状態の推定を保持し、観測状態の法則は、条件付き確率の条件として時刻tの観測を用い、独自隠れ状態を得るように、状態の推移法則は、条件付き確率の条件として時刻tの独自隠れ状態及び時刻t+1の独自隠れ状態を用い、エージェントの行動を得るように、状態の推移法則、及び観測状態の法則を定義する。各法則を用いて、エージェントの手順に従って分布を更新する。【選択図】図2

請求項（抜粋）：

状態の推移法則、観測状態の法則、及び報酬の法則による各法則が定義されている系を用い、エージェントの行動を繰り返して前記各法則を学習し報酬を獲得するモデルにおいて、隠れ状態を所定の態様に変更した独自隠れ状態、及び前記独自隠れ状態における現在の状態の推定を保持し、前記観測状態の法則は、条件付き確率の条件として時刻tの観測を用い、前記独自隠れ状態を得るように、前記状態の推移法則は、条件付き確率の条件として時刻tの前記独自隠れ状態及び時刻t+1の前記独自隠れ状態を用い、前記エージェントの行動を得るように、前記状態の推移法則、及び前記観測状態の法則を定義する設定部と、前記各法則をもとにサンプリングした確率を表す各パラメータの分布と、前記現在の状態の推定とを仮定して、ベルマン方程式に基づいて前記エージェントの最適行動を決定し、前記各法則、所定の事前分布、及び前記最適行動を含む観測情報に対してベイズの定理を適用して得られた事後分布により、前記現在の状態の推定、及び前記各法則を用いた前記分布を更新することを繰り返す更新部と、を含む最適化装置。

IPC (3件)：

G06N 20/00 , G06N 99/00 , G06Q 10/04

FI (3件)：

G06N20/00 , G06N99/00 180 , G06Q10/04

Fターム (1件)：

5L049AA04

引用特許：

出願人引用 (2件)

再表2013/179579号公報
ニューラルネットワークを使用する強化学習のための行動選択
公報種別：公表公報出願番号：特願2019-546129 出願人：ディープマインドテクノロジーズリミテッド

前のページに戻る