LIDER:大規模高密度通過検索のための効率的な高次元学習インデックス【JST・京大機械翻訳】

Wang Yifan; Ma Haodi; Wang Daisy Zhe

プレプリント

J-GLOBAL ID：202202200069587899 整理番号：22P0342159

LIDER:大規模高密度通過検索のための効率的な高次元学習インデックス【JST・京大機械翻訳】

LIDER: An Efficient High-dimensional Learned Index for Large-scale Dense Passage Retrieval

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (3件)： , ,
資料名：
発行年： 2022年05月02日プレプリントサーバーでの情報更新日： 2022年10月09日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

通過検索の多くの最近のアプローチは,「高密度通路検索」と呼ばれる深い神経モデルから生成される高密度埋込みを用いる。最先端のエンドツーエンド高密度通路検索システムは,通常,近似最近傍(ANN)探索モジュールに続く深いニューラルモデルを展開する。モデルはコーパスとクエリの埋込みを生成し,次に,高性能ANNモジュールによって索引付けして検索した。増加するデータスケールによって,ANNモジュールは効率のボトルネックになった。代替案は学習されたインデックスであり,データ配布を学習し,ターゲットデータ位置を予測することによって,著しく高い検索効率を達成する。しかし,既存の学習指数の大部分は低次元データのために設計され,それは高次元高密度埋込みによる高密度通路検索に適していない。本論文では,大規模DEnse経路検索のための効率的な高次元学習指標であるLIDERを提案した。LIDERは,コアモデルの2つの層によって形成されるクラスタ化ベースの階層的アーキテクチャを持っている。指数と探索データに対するLIDERの基本ユニットとして,コアモデルは適応再帰モデル指数(RMI)と拡張SortingKeys-LSH(SK-LSH)と鍵再スケーリングモジュールから成る次元縮小成分を含む。次元縮小成分は,一次元鍵に高次元高密度埋込みを減らし,それらを特定の順序で分類し,次に,高速予測を行うためにRMIによって使用する。実験は,LIDERが,経路検索タスクに関する最先端のANN指数と比較して,高い検索品質を有する高い検索速度を持ち,例えば,大規模データにおいて,それは,著者らの評価において,1.2x探索速度を達成し,そして,最速ベースラインよりも有意に高い検索品質を達成することを示した。さらに,LIDERは,速度品質トレードオフのより良い能力を有した。【JST・京大機械翻訳】

, , , , , , , , , , , , ,
, 【Automatic Indexing@JST】

図形・画像処理一般 , 人工知能 , パターン認識

, , , , ,

前のページに戻る