文献
J-GLOBAL ID:202002230188323982   整理番号:20A2031482

対話型推薦のための擬似Dyna-Q A強化学習フレームワーク【JST・京大機械翻訳】

Pseudo Dyna-Q A Reinforcement Learning Framework for Interactive Recommendation
著者 (8件):
資料名:
号: WSDM ’20  ページ: 816-824  発行年: 2020年 
JST資料番号: D0698C  資料種別: 会議録 (C)
記事区分: 原著論文  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
推薦者システムにおける強化学習(RL)の適用は,実際の顧客との相互作用の制約のために魅力的であるが,実際の顧客との相互作用によるオンライン政策学習を行うのは,通常,顧客経験を害する。実用的な代替案は,ログ付きデータからの推薦エージェントのオフライン構築であり,一方,ログデータオフラインを直接使用すると,伐採政策と推薦政策の間の選択バイアスの問題が生じる。既存の直接オフライン学習アルゴリズム(例えばモンテカルロ法と時間差法)は,収束に関して計算的に高価であるか不安定である。これらの問題に取り組むために,擬似Dyna-Q(PDQ)を提案した。PDQにおいて,実際の顧客との相互作用の代わりに,著者らは,環境をシミュレートして,ログデータの選択バイアスを処理するために設計された世界モデルと呼ばれる顧客シミュレータに頼る。政策改良の間,現在の推薦政策に従って,世界モデルを絶えず更新し,適応的に最適化した。この方法で,提案したPDQは,既存のアプローチの収束と高い計算コストの不安定性を避けるだけでなく,実際の顧客を含むことなく,制限のない相互作用も提供する。さらに,報酬関数の経験的誤差の上限は,学習オフライン政策がより低いバイアスと分散を有することを保証した。広範な実験は,最先端の方法に対する2つの実世界データセットに対するPDQの利点を実証した。Please refer to this article’s citation page on the publisher website for specific rights information. Translated from English into Japanese by JST.【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (1件):
分類
JSTが定めた文献の分類名称とコードです
人工知能 
タイトルに関連する用語 (5件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る