LHist: Towards Learning Multi-dimensional Histogram for Massive Spatial Data

最新推荐文章于 2024-07-21 12:40:56 发布

西西弗的小蚂蚁

最新推荐文章于 2024-07-21 12:40:56 发布

阅读量144

点赞数

分类专栏：学习索引文章标签：数据挖掘人工智能

本文链接：https://blog.csdn.net/zj_18706809267/article/details/125220304

版权

学习索引专栏收录该内容

38 篇文章 19 订阅

订阅专栏

在大型空间数据库中，数据摘要被广泛应用于提高查询处理速度。多维直方图作为最流行的空间数据概要之一，已经被现代数据库管理系统和分析系统研究和采用几十年了。然而，现有的MH构建技术高度依赖于专家知识和统计假设，使得它们很难在不同的数据集上取得一致令人满意的性能。受新兴的学习索引技术的启发，本文提出了一种学习数据摘要技术——学习多维直方图(learned多维直方图)，该技术广泛使用的索引结构如b树，可以通过集成简单的机器学习模型来进一步改进。与传统的数据概要技术相比，LHist是完全数据驱动的，易于实现，并有可能实现更好的存储精度权衡。以范围COUNT查询估计为典型任务，在大型真实数据集和综合基准上的大量实验研究表明，LHist在存储成本、查询处理效率和估计精度方面优于现有的概要结构。

背景：

1）多维直方图(MH)及其变体是目前最流行的空间数据概要技术之一，被广泛应用于查询基数/选择性估计[19]、空间数据分区[20]-[22]、空间数据挖掘[23]和数据探索[8]等领域。

2）与一维直方图不同，在一定质量度量下搜索最佳MH结构通常是一个算法挑战。

3）即使在二维情况下也被证明是NP-hard[25]。更糟糕的是，找到这个问题的近似值也是很难的。

为了解决固有的困难，提出了各种启发式MH构建技术[13]，[15]，[16]，[22]。然而，这些方法有两个主要的限制，可能会导致不良的性能。

Unreasonable Assumption: 为了减少空间成本，MH以及其他统计数据概要(如随机样本)依赖于强假设，如维度独立性或桶内均匀分布[13]，[27]来进行估计。这些假设在实践中是不现实的，导致估计精度不理想。

Inconsistent Performance: 现有MH技术的性能很容易受到不同数据集、参数设置和查询工作负载的影响。在最近的评估研究[28]中表明，当内存预算足够大时，现有的空间数据概要技术可以实现较高的准确性，但在内存有限的情况下，通常性能较差。此外，查询选择性对性能的影响也很大，根据[28]，现有的空间概要技术对于低选择性的查询都不能达到满意的性能。

上述问题激励我们设计一种性能一致、易于实现并提供更好的存储精度的新的多维数据概要。为了实现这些目标，我们借鉴了新兴的learned index。

方法：

为了在效率和CDF模型能力之间寻求平衡，我们结合了RMI和多维等深度直方图(MEH)[13]的思想，得到了一个新的学习空间概要，称为学习多维直方图(LHist)。

我们将LHist发展为深度d的模型层次结构。LHist首先通过基于模型的分区方案(前d 1阶段)将整个d维数据集分成小桶，然后训练模型逼近桶内的CDF(最后阶段)，即使使用简单的模型也很容易优化。与之前简单地将直方图与拟合曲线[34]结合起来的研究不同，我们的LHist中的桶划分和桶内CDF估计都是通过一组简单的机器学习模型来执行的。为此，LHist可以生成一个完全由数据驱动的桶式方案，同时避免不切实际的假设，最终生成一个与现有多维直方图有竞争力的替代方案

主要贡献是：

1)我们展示了集成简单的机器学习模型可以解决传统摘要技术的痛点，并提出了LHist框架来有效地生成多维数据摘要

2)我们开发了一种分期构建算法，以有效地从数据构建LHist。我们还提出了模型选择和训练方法。这些能够在准确性和存储开销之间进行权衡。

3）我们对77gb以上的真实数据和合成数据进行了广泛的实验研究。在范围COUNT估计任务中，结果表明LHist在存储开销、查询处理效率和估计精度方面优于现有的概要结构(如MEH、随机样本)和最先进的基于深度学习的方法。

III. LHIST OVERVIEW

我们所学的空间概要目标主要有两个方面:1)它可以有效地刻画复杂的多维CDF;2)它应该支持灵活的存储精度权衡。为了达到目标，我们结合了RMI和多维等深度直方图(MEH)[13]的思想，产生了一个新的学习数据结构，称为学习多维直方图(LHist)。

multidimensional equal-depth histogram (MEH)：

包含X中的所有点，这些点将使用等深方案沿任意选择的维度划分为桶。分区的桶将使用相同的等深度分区方案，沿着剩余的d - 1维进一步递归分割。对于每个桶，存储基本统计信息(例如，点数)用于查询处理。与简单的均匀直方图(又称网格)相比，MEH能够检测密集区域将被积极分割的热点。注意，每个维度上的分割数量通常是预先指定的，可以通过满足给定的总存储预算[13]，[27]来确定。

我们的LHist设计可以被视为MEH的一个学习版本，其中利用简单的回归模型沿着每个维度将数据集划分为多个桶，并拟合每个桶内的局部分布，这通常更容易学习。

直观上，LHist以一种软的方式模拟了MEH的结构，其中，MEH中桶的硬边界被训练有素的CDF模型所取代。

the LHist data structure can be recursively defined。LHist的第一级，即LHist的根节点，用R表示，它对应整个数据库X。R指向一个训练好的回归模型，用fR表示，以点x作为输入预测x在整个数据库X中，沿着第一维度的索引位置

LHIST ALGORITHMS

1）Model Selection and Model Training

回想一下，我们的LHist是一个通用的数据概要框架，其中可以插入任何具有单调约束的回归模型。然而，对于我们的LHist来说，为了实现更好的存储精度权衡，模型选择是一个致命的问题。

为了在模型精度和存储开销之间寻求平衡，我们在LHist结构中选择了单变量多项式函数，因为它在控制模型复杂性方面具有灵活性

EXPERIMENTAL STUDY

西西弗的小蚂蚁

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
LHist: Towards Learning Multi-dimensional Histogram for Massive Spatial Data

在大型空间数据库中，数据摘要被广泛应用于提高查询处理速度。多维直方图作为最流行的空间数据概要之一，已经被现代数据库管理系统和分析系统研究和采用几十年了。然而，现有的MH构建技术高度依赖于专家知识和统计假设，使得它们很难在不同的数据集上取得一致令人满意的性能。受新兴的学习索引技术的启发，本文提出了一种学习数据摘要技术——学习多维直方图(learned多维直方图)，该技术广泛使用的索引结构如b树，可以通过集成简单的机器学习模型来进一步改进。与传统的数据概要技术相比，LHist是完全数据驱动的，易于实现，并有可能
复制链接

扫一扫