遠隔文脈バンディット【JST・京大機械翻訳】

Pase Francesco; Gunduz Deniz; Zorzi Michele

プレプリント

J-GLOBAL ID：202202201169528918 整理番号：22P0287794

遠隔文脈バンディット【JST・京大機械翻訳】

Remote Contextual Bandits

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (3件)： , ,
資料名：
発行年： 2022年02月10日プレプリントサーバーでの情報更新日： 2022年02月10日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

著者らは,意思決定者がコンテキストと報酬を観察するが,速度制限通信チャネル上のエージェントによって取られる行動を伝達しなければならない遠隔文脈マルチアームバンド(CMAB)問題を考察した。これは,例えば,コンテンツ所有者が個々の訪問者をそのウェブサイトに観測し,従ってコンテキスト情報を持っているが,マーケティングコンテンツを管理する別々のエンティティに,各訪問者に表示しなければならないアドスを伝えなければならない,例えば,個人化されたアド配置アプリケーションをモデル化できる。この遠隔CMAB(R-CMAB)問題において,意思決定者とエージェントの間の通信速度に関する制約は,エージェントあたりのビット送信数と獲得平均報酬の間のトレードオフを課す。特に,サブリニアレグレットを達成するのに必要な速度の特性化に関心がある。その結果,これは,歪計量が学習目的によって誘導される,政策圧縮問題とみなすことができる。最初に,エージェントの数を無限に設定することによって,この問題の基本的情報理論的限界を研究して,Thompsonサンプリング戦略を採用するとき,達成したレグレットを研究した。特に,線形およびサブ線形レグレット挙動をもたらす2つの異なる速度領域を同定した。次に,意思決定者が歪みなしで政策を確実に伝送できるとき,達成可能なレレットに関する上限を提供した。【JST・京大機械翻訳】

, , , , , , , , , , ,
, , , 【Automatic Indexing@JST】

人工知能

前のページに戻る