抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
バンディット問題は,複数のアーム(選択肢)から最も報酬の高いものを探す問題であり,探索と活用のトレードオフの代表的なモデルの1つである。近年において,情報推薦,最適経路探索,最適化,モデル選択などの分野への応用を動機として,バンディット問題は機械学習やオペレーション・リサーチの分野において注目を浴びている。本研究はロックアップ期間(選択するアームを変更できない期間)の制約を考慮したバンディット問題を提案し,どのような方策をとればよいかを調べる。既存の多くの有益なアルゴリズムがロックアップ期間を含めた場合に自然に拡張可能であることを示し,そのregret(性能)を評価する。このregretがロックアップ期間の最大の大きさに依存することを示す。さらに,ロックアップ期間が大きい場合にregretを減らすことができるBalancing and Recommendation(BaR)メタアルゴリズムを提案する。また,計算機実験の結果を示し,理論的な結果と比較し考察する。(著者抄録)