プレプリント
J-GLOBAL ID:202202214607766821   整理番号:22P0161252

遅延報酬を持つゲームにおける無勾配オンライン学習【JST・京大機械翻訳】

Gradient-free Online Learning in Games with Delayed Rewards
著者 (3件):
資料名:
発行年: 2020年06月18日  プレプリントサーバーでの情報更新日: 2020年06月18日
JST資料番号: O7000B  資料種別: プレプリント
記事区分: プレプリント  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
オンライン広告と推薦システムへの応用によって動機づけられて,著者らは遅れた報酬と非同期,支払いベースのフィードバックを有するゲーム理論モデルを考察した。遅延マルチアームバンドに関する以前の研究とは対照的に,著者らは連続行動空間を有する多層ゲームに焦点を当て,著者らは,非登録学習ポリシーに従う戦略的エージェントの長期的挙動を調査した(しかし,そうでなければ,ゲームが演じる,それらの相手の目的など)。情報の一貫したストリームの欠如(例えば,報酬は先験的非有界遅延など)の欠落を説明するために,著者らは,支払い情報が到着するので,優先待ち行列に支払う勾配フリー学習ポリシーを導入した。この一般的な文脈において,エージェントのレグレットに対する新しい限界を導いた。さらに,標準対角凹凸仮定の下で,著者らは,作用の選択と対応する報酬の受信の間の遅延が非有界であっても,確率1のNash均衡に収束することを示した。【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (2件):
分類
JSTが定めた文献の分類名称とコードです
人工知能  ,  ゲーム理論 
タイトルに関連する用語 (5件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る