強化学習によるレコメンデーションにおけるパレート効率的公平性-効用トレードオフに向けて【JST・京大機械翻訳】

Ge Yingqiang; Zhao Xiaoting; Yu Lucia; Paul Saurabh; Hu Diane; Hsieh Chu-Cheng; Zhang Yongfeng

プレプリント

J-GLOBAL ID：202202213144839577 整理番号：22P0022377

強化学習によるレコメンデーションにおけるパレート効率的公平性-効用トレードオフに向けて【JST・京大機械翻訳】

Toward Pareto Efficient Fairness-Utility Trade-off inRecommendation through Reinforcement Learning

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (7件)： , , , , , ,
資料名：
発行年： 2022年01月01日プレプリントサーバーでの情報更新日： 2022年01月01日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

※このプレプリント論文は学術誌に掲載済みです。なお、学術誌掲載の際には一部内容が変更されている可能性があります。

推薦における公平性の問題は,レコメンダーシステムタッチとしてますます不可欠になっており,日常生活においてますます多くの人々に影響する。公平性意識推薦において,既存のアルゴリズムアプローチの殆どは,主要な推薦目的,例えばCTRを最適化しながら,公平性のレベルに関する制約を課すことによって,制約付き最適化問題を主に解決することを目指している。これは,不公平な推薦の影響を軽減するが,アプローチの期待したリターンは,公平性とユーティリティの間の固有のトレードオフのために推薦精度を著しく妥協するかもしれない。これは,これらの相反する目的に対処して,推薦におけるそれらの間の最適なトレードオフを探究する。1つの目立つ手法は,ユーティリティと公平性の間の最適妥協を保証するためのPareto効率的解を求めることである。さらに,実世界e-コマースプラットフォームのニーズを考慮して,意思決定者が現在のビジネスニーズに基づいてもう1つの目的の選好を特定できるように,全体のパレートフロンティアを一般化できるならば,より望ましいであろう。従って,本研究では,MoFIRと呼ばれる多目的強化学習を用いた公平性意識推薦フレームワークを提案し,これは全ての可能な選好の空間における最適推薦ポリシーに対する単一パラメトリック表現を学習できる。特に,条件付きネットワークを導入することによって従来のDDPGを修正し,ネットワークを直接これらの選好と出力Q値ベクトルに条件づける。いくつかの実世界推薦データセットに関する実験は,すべての他のベースラインと比較したとき,公平性計量と推薦測度の両方に関する著者らのフレームワークの優位性を証明した。また,MoFIRにより生成された実世界データセット上で近似パレートフロンティアを抽出し,最先端の公平性法と比較した。【JST・京大機械翻訳】

, , , , , , , , , , , , , ,

人工知能 , 無線通信一般 , 移動通信

, , , , ,

前のページに戻る