抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
カラムにおける異なる値(NDV)の数を推定することは,カラムの圧縮やデータプロファイリングのようなデータベースシステムにおける多くのタスクに有用である。本研究では,ランダム(オンライン/オフライン)サンプルから正確なNDV推定を導く方法に焦点を当てた。このような効率的な推定は,一度にデータをスキャンするのが禁止するタスクにとって極めて重要である。既存のサンプルベースの推定器は,通常,発見的または仮定に依存し,データに関する仮定が簡単に壊れるので,異なるデータセットにわたってロバスト性能を持たない。一方,最尤推定のような原理定式化からの推定子の導出は,定式化の複雑な構造により非常に困難である。教師つき学習フレームワークにおけるNDV推定タスクを定式化し,推定子としてモデルを学習することを目的とした。この目的のために,いくつかの疑問に答える必要がある:i)学習したモデル作業負荷診断をいかに行うか;ii)訓練データを得る方法;3)モデル訓練を実行する方法。学習モデルが作業負荷診断である学習フレームワークの条件を導き,モデル/推定器が合成的に生成された訓練データで訓練され,次に,ユーザ定義関数(UDF),例えばユーザ定義関数(UDF)が,効率的(CPU上のマイクロ秒内)と,非意味表と作業負荷のための正確なNDV推定を提供するという意味で,任意のデータウェアハウスに展開される。学習した推定子を,その優れた推定精度を実証するために,9つの実世界データ集合で最先端のサンプルベース推定器と比較した。このコードを,訓練データ生成,モデル訓練,および再現性のためにオンライン学習した推定子について発表した。【JST・京大機械翻訳】