特許
J-GLOBAL ID:201303095265653072

パラメータ設定装置、コンピュータプログラム及びパラメータ設定方法

発明者:
出願人/特許権者:
代理人 (4件): 青木 篤 ,  伊坪 公一 ,  樋口 外治 ,  小林 龍
公報種別:公開公報
出願番号(国際出願番号):特願2011-248944
公開番号(公開出願番号):特開2013-106202
出願日: 2011年11月14日
公開日(公表日): 2013年05月30日
要約:
【課題】無線通信網の状態に応じたユースケースの適用を学習するために強化学習を行う場合における学習効率が向上する。【解決手段】移動体通信網3の状態変数に応じて移動体通信網3の制御パラメータを設定するパラメータ設定装置2は、状態変数stに応じた各最適化処理の行動価値Q(s,a)を定める共通の価値関数30に従い、無線通信網3内の異なる複数の範囲(6a、6b)の各々について、範囲内の状態変数に応じて制御パラメータを最適化する複数の最適化処理のうちいずれかを選択して実行する処理と、複数の範囲(6a、6b)の各々について、範囲内の状態変数stに応じた報酬rtを決定する処理と、この範囲毎に決定された報酬rt毎に、報酬rtに応じて共通の価値関数30を更新する強化学習を行う強化学習処理を実行するプロセッサ10を備える。【選択図】図6
請求項(抜粋):
移動体通信網の状態変数に応じて前記移動体通信網の制御パラメータを設定するパラメータ設定装置であって、 前記状態変数に応じた各最適化処理の行動価値を定める共通の価値関数に従い、前記移動体通信網内の異なる複数の範囲の各々について、前記範囲内の状態変数に応じて前記制御パラメータを最適化する複数の最適化処理のうちいずれかを選択して実行する処理と、 前記複数の範囲の各々について、前記範囲内の状態変数に応じた報酬を決定する処理と、 前記範囲毎に決定された前記報酬毎に、前記報酬に応じて前記共通の価値関数を更新する強化学習を行う強化学習処理と、 を実行するプロセッサを備えることを特徴とするパラメータ設定装置。
IPC (2件):
H04W 92/12 ,  G05B 13/02
FI (3件):
H04Q7/00 687 ,  G05B13/02 J ,  G05B13/02 L
Fターム (15件):
5H004GA18 ,  5H004GB20 ,  5H004KC08 ,  5H004KD61 ,  5K067AA41 ,  5K067BB21 ,  5K067DD57 ,  5K067EE02 ,  5K067EE10 ,  5K067EE16 ,  5K067FF02 ,  5K067HH22 ,  5K067HH23 ,  5K067KK13 ,  5K067KK15

前のページに戻る