LHist: Towards Learning Multi-dimensional Histogram for Massive Spatial Data

在大型空间数据库中,数据摘要被广泛应用于提高查询处理速度。多维直方图作为最流行的空间数据概要之一,已经被现代数据库管理系统和分析系统研究和采用几十年了。然而,现有的MH构建技术高度依赖于专家知识和统计假设,使得它们很难在不同的数据集上取得一致令人满意的性能。受新兴的学习索引技术的启发,本文提出了一种学习数据摘要技术——学习多维直方图(learned多维直方图),该技术广泛使用的索引结构如b树,可以通过集成简单的机器学习模型来进一步改进。与传统的数据概要技术相比,LHist是完全数据驱动的,易于实现,并有可能实现更好的存储精度权衡。以范围COUNT查询估计为典型任务,在大型真实数据集和综合基准上的大量实验研究表明,LHist在存储成本、查询处理效率和估计精度方面优于现有的概要结构

背景:

1)多维直方图(MH)及其变体是目前最流行的空间数据概要技术之一,被广泛应用于查询基数/选择性估计[19]、空间数据分区[20]-[22]、空间数据挖掘[23]和数据探索[8]等领域。

2)与一维直方图不同,在一定质量度量下搜索最佳MH结构通常是一个算法挑战。

3)即使在二维情况下也被证明是NP-hard[25]。更糟糕的是,找到这个问题的近似值也是很难的。

为了解决固有的困难,提出了各种启发式MH构建技术[13],[15],[16],[22]。然而,这些方法有两个主要的限制,可能会导致不良的性能。

Unreasonable Assumption: 为了减少空间成本,MH以及其他统计数据概要(如随机样本)依赖于强假设,如维度独立性或桶内均匀分布[13],[27]来进行估计。这些假设在实践中是不现实的,导致估计精度不理想。

Inconsistent Performance: 现有MH技术的性能很容易受到不同数据集、参数设置和查询工作负载的影响。在最近的评估研究[28]中表明,当内存预算足够大时,现有的空间数据概要技术可以实现较高的准确性,但在内存有限的情况下,通常性能较差。此外,查询选择性对性能的影响也很大,根据[28],现有的空间概要技术对于低选择性的查询都不能达到满意的性能。

上述问题激励我们设计一种性能一致、易于实现并提供更好的存储精度的新的多维数据概要。为了实现这些目标,我们借鉴了新兴的learned index。 

方法:

为了在效率和CDF模型能力之间寻求平衡,我们结合了RMI和多维等深度直方图(MEH)[13]的思想,得到了一个新的学习空间概要,称为学习多维直方图(LHist)

我们将LHist发展为深度d的模型层次结构LHist首先通过基于模型的分区方案(前d 1阶段)将整个d维数据集分成小桶,然后训练模型逼近桶内的CDF(最后阶段),即使使用简单的模型也很容易优化。与之前简单地将直方图与拟合曲线[34]结合起来的研究不同,我们的LHist中的桶划分和桶内CDF估计都是通过一组简单的机器学习模型来执行的。为此,LHist可以生成一个完全由数据驱动的桶式方案,同时避免不切实际的假设,最终生成一个与现有多维直方图有竞争力的替代方案

主要贡献是:

1)我们展示了集成简单的机器学习模型可以解决传统摘要技术的痛点,并提出了LHist框架来有效地生成多维数据摘要 

2)我们开发了一种分期构建算法,以有效地从数据构建LHist。我们还提出了模型选择和训练方法。这些能够在准确性和存储开销之间进行权衡。

3)我们对77gb以上的真实数据和合成数据进行了广泛的实验研究。在范围COUNT估计任务中,结果表明LHist在存储开销、查询处理效率和估计精度方面优于现有的概要结构(如MEH、随机样本)和最先进的基于深度学习的方法。

III. LHIST OVERVIEW

我们所学的空间概要目标 主要有两个方面:1)它可以有效地刻画复杂的多维CDF;2)它应该支持灵活的存储精度权衡。为了达到目标,我们结合了RMI和多维等深度直方图(MEH)[13]的思想,产生了一个新的学习数据结构,称为学习多维直方图(LHist)。

multidimensional equal-depth histogram (MEH):

 包含X中的所有点,这些点将使用等深方案沿任意选择的维度划分为桶。分区的桶将使用相同的等深度分区方案,沿着剩余的d - 1维进一步递归分割。对于每个桶,存储基本统计信息(例如,点数)用于查询处理。与简单的均匀直方图(又称网格)相比,MEH能够检测密集区域将被积极分割的热点。注意,每个维度上的分割数量通常是预先指定的,可以通过满足给定的总存储预算[13],[27]来确定。

我们的LHist设计可以被视为MEH的一个学习版本,其中利用简单的回归模型沿着每个维度将数据集划分为多个桶,并拟合每个桶内的局部分布,这通常更容易学习。

直观上,LHist以一种软的方式模拟了MEH的结构,其中,MEH中桶的硬边界被训练有素的CDF模型所取代。

 the LHist data structure can be recursively defined。LHist的第一级,即LHist的根节点,用R表示,它对应整个数据库X。R指向一个训练好的回归模型,用fR表示,以点x作为输入预测x在整个数据库X中,沿着第一维度的索引位置

 LHIST ALGORITHMS 

1)Model Selection and Model Training

回想一下,我们的LHist是一个通用的数据概要框架,其中可以插入任何具有单调约束的回归模型。然而,对于我们的LHist来说,为了实现更好的存储精度权衡,模型选择是一个致命的问题。

为了在模型精度和存储开销之间寻求平衡,我们在LHist结构中选择了单变量多项式函数,因为它在控制模型复杂性方面具有灵活性 

 EXPERIMENTAL STUDY

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Faster R-CNN是一种基于区域建议网络(Region Proposal Networks,RPN)的物体检测算法,旨在实现实时物体检测。它通过预测每个区域是否含有物体来生成候选框,并使用卷积神经网络(CNN)来确定候选框中的物体类别。Faster R-CNN在提高检测精度的同时,也显著提高了检测速度。 ### 回答2: 在计算机视觉领域中,目标检测一直是热门研究的方向之一。近年来,基于深度学习的目标检测方法已经取得了显著的进展,并且在许多实际应用中得到了广泛的应用。其中,Faster R-CNN 是一种基于区域建议网络(Region Proposal Networks,RPN)的目标检测方法,在检测准确率和速度之间取得了很好的平衡,能够实现实时目标检测。 Faster R-CNN 的基本框架由两个模块组成:区域建议网络(RPN)和检测模块。RPN 主要负责生成候选目标框,而检测模块则利用这些候选框完成目标检测任务。具体来说,RPN 首先在原始图像上以多个尺度的滑动窗口为基础,使用卷积网络获取特征图。然后,在特征图上应用一个小型网络来预测每个位置是否存在目标,以及每个位置的目标边界框的坐标偏移量。最终,RPN 根据预测得分和位置偏移量来选择一部分具有潜在对象的区域,然后将这些区域作为候选框送入检测模块。 检测模块的主要任务是使用候选框来检测图像中的目标类别和位置。具体来说,该模块首先通过将每个候选框映射回原始图像并使用 RoI Pooling 算法来获取固定大小的特征向量。然后,使用全连接神经网络对这些特征向量进行分类和回归,以获得每个框的目标类别和精确位置。 相比于传统的目标检测方法,Faster R-CNN 具有以下优点:首先,通过使用 RPN 可以自动生成候选框,避免了手动设计和选择的过程;其次,通过共享卷积网络可以大大减少计算量,提高效率;最后,Faster R-CNN 在准确率和速度之间取得了很好的平衡,可以实现实时目标检测。 总之,Faster R-CNN 是一种高效、准确的目标检测方法,是深度学习在计算机视觉领域中的重要应用之一。在未来,随着计算机视觉技术的进一步发展,Faster R-CNN 这类基于深度学习的目标检测方法将会得到更广泛的应用。 ### 回答3: Faster R-CNN是一种结合了深度学习和传统目标检测算法的新型目标检测方法,旨在提高目标检测速度和准确率。Faster R-CNN采用了Region Proposal Network(RPN)来生成候选区域,并通过R-CNN网络对候选区域进行分类和定位。 RPN是一种全卷积神经网络,用于在图像中生成潜在的候选区域。RPN通常在卷积特征图上滑动,对每个位置预测k个候选区域和其对应的置信度得分。这样,对于输入图像,在不同大小和宽高比的Anchor上预测候选框,可以在计算上更有效率。 R-CNN网络利用卷积特征图作为输入,对RPN生成的候选区域进行分类和精确定位。与以前的目标检测方法相比,Faster R-CNN使用了共享卷积特征,使得整个检测网络可以端到端地进行训练和优化,缩短了训练时间,同时也更便于理解和改进。 Faster R-CNN不仅具有较高的准确性,还具有较快的检测速度。在各种基准测试中,Faster R-CNN与其他目标检测算法相比,都取得了优异的性能表现。总之,Faster R-CNN将目标检测引入了一个新的阶段,为实时目标检测提供了一个良好的基础。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值