統計者としての学習:異なる値の数のための学習推定量【JST・京大機械翻訳】

Wu Renzhi; Ding Bolin; Chu Xu; Wei Zhewei; Dai Xiening; Guan Tao; Zhou Jingren

プレプリント

J-GLOBAL ID：202202212762931526 整理番号：22P0285412

統計者としての学習:異なる値の数のための学習推定量【JST・京大機械翻訳】

Learning to be a Statistician: Learned Estimator for Number of Distinct Values

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (7件)： , , , , , ,
資料名：
発行年： 2022年02月06日プレプリントサーバーでの情報更新日： 2022年02月06日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

※このプレプリント論文は学術誌に掲載済みです。なお、学術誌掲載の際には一部内容が変更されている可能性があります。

カラムにおける異なる値(NDV)の数を推定することは,カラムの圧縮やデータプロファイリングのようなデータベースシステムにおける多くのタスクに有用である。本研究では,ランダム(オンライン/オフライン)サンプルから正確なNDV推定を導く方法に焦点を当てた。このような効率的な推定は,一度にデータをスキャンするのが禁止するタスクにとって極めて重要である。既存のサンプルベースの推定器は,通常,発見的または仮定に依存し,データに関する仮定が簡単に壊れるので,異なるデータセットにわたってロバスト性能を持たない。一方,最尤推定のような原理定式化からの推定子の導出は,定式化の複雑な構造により非常に困難である。教師つき学習フレームワークにおけるNDV推定タスクを定式化し,推定子としてモデルを学習することを目的とした。この目的のために,いくつかの疑問に答える必要がある:i)学習したモデル作業負荷診断をいかに行うか;ii)訓練データを得る方法;3)モデル訓練を実行する方法。学習モデルが作業負荷診断である学習フレームワークの条件を導き,モデル/推定器が合成的に生成された訓練データで訓練され,次に,ユーザ定義関数(UDF),例えばユーザ定義関数(UDF)が,効率的(CPU上のマイクロ秒内)と,非意味表と作業負荷のための正確なNDV推定を提供するという意味で,任意のデータウェアハウスに展開される。学習した推定子を,その優れた推定精度を実証するために,9つの実世界データ集合で最先端のサンプルベース推定器と比較した。このコードを,訓練データ生成,モデル訓練,および再現性のためにオンライン学習した推定子について発表した。【JST・京大機械翻訳】

, , , , , , , , ,
, , , , , , 【Automatic Indexing@JST】

人工知能 , システム・制御理論一般 , パターン認識

, , ,

前のページに戻る