抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
本論文では,更新報酬システムのオンライン最適化を考察した。制御装置は一連のタスクバックツーバックを実行する。各タスクはタスクタイプベクトルと呼ばれるパラメータのランダムベクトルを持ち,タスク処理オプションに影響し,タスクの報酬と時間持続時間にも影響を与える。タスクタイプベクトルに対する確率分布は未知であり,コントローラは,時間平均報酬が最適性に収束するように,効率的な決定を行うように学習しなければならない。そのような更新最適化問題の前の研究は,最適収束時間の疑問を開いた。本論文は,kが処理されるタスクの数であるO(1/√k)のように減衰する最適性ギャップを有するアルゴリズムを開発した。同じアルゴリズムは,システムが強い凹凸特性を満たすとき,より速いO(log(k)/k)性能を有することを示した。提案したアルゴリズムは,古典的なRobbins-Monro反復に従って更新される補助変数を使用する。それは,この変数と観察されたタスクタイプに基づく各更新フレームの開始でオンラインスケジューリング決定を行う。すべてのアルゴリズムが最良のΩ(log(k)/k)で性能を有する用例システムを構築することによって,強く凹んだケースのために,マッチング逆数を得た。整合Ω(1/√k)逆もまた,強い凹みのない一般的ケースに対して示した。【JST・京大機械翻訳】