対話型推薦のための擬似Dyna-Q A強化学習フレームワーク【JST・京大機械翻訳】

Zou Lixin; Xia Long; Du Pan; Zhang Zhuo; Bai Ting; Liu Weidong; Nie Jian-Yun; Yin Dawei

文献

J-GLOBAL ID：202002230188323982 整理番号：20A2031482

対話型推薦のための擬似Dyna-Q A強化学習フレームワーク【JST・京大機械翻訳】

Pseudo Dyna-Q A Reinforcement Learning Framework for Interactive Recommendation

出版者サイト複写サービスで全文入手
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=20A2031482&from=J-GLOBAL&jstjournalNo=D0698C") }}

著者 (8件)： , , , , , , ,
資料名：
号： WSDM ’20 ページ： 816-824 発行年： 2020年
JST資料番号： D0698C 資料種別：会議録 (C)
記事区分：原著論文発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

推薦者システムにおける強化学習(RL)の適用は,実際の顧客との相互作用の制約のために魅力的であるが,実際の顧客との相互作用によるオンライン政策学習を行うのは,通常,顧客経験を害する。実用的な代替案は,ログ付きデータからの推薦エージェントのオフライン構築であり,一方,ログデータオフラインを直接使用すると,伐採政策と推薦政策の間の選択バイアスの問題が生じる。既存の直接オフライン学習アルゴリズム(例えばモンテカルロ法と時間差法)は,収束に関して計算的に高価であるか不安定である。これらの問題に取り組むために,擬似Dyna-Q(PDQ)を提案した。PDQにおいて,実際の顧客との相互作用の代わりに,著者らは,環境をシミュレートして,ログデータの選択バイアスを処理するために設計された世界モデルと呼ばれる顧客シミュレータに頼る。政策改良の間,現在の推薦政策に従って,世界モデルを絶えず更新し,適応的に最適化した。この方法で,提案したPDQは,既存のアプローチの収束と高い計算コストの不安定性を避けるだけでなく,実際の顧客を含むことなく,制限のない相互作用も提供する。さらに,報酬関数の経験的誤差の上限は,学習オフライン政策がより低いバイアスと分散を有することを保証した。広範な実験は,最先端の方法に対する2つの実世界データセットに対するPDQの利点を実証した。Please refer to this article’s citation page on the publisher website for specific rights information. Translated from English into Japanese by JST.【JST・京大機械翻訳】

, , , , , , , ,
, , , , , , 【Automatic Indexing@JST】

著者キーワード (5件)： , , , ,

人工知能

, , , ,

前のページに戻る