Approximate Partition Selection for Big-Data Workloads using Summary Statistics

Approximate Partition Selection for Big-Data Workloads using Summary Statistics (VLDB2020)

     许多大数据集群将数据存储在大分区中,这些分区支持粗粒度的分区级访问。因此,通过行级采样的近似查询处理效率很低,通常需要读取多个分区。在这项工作中,我们试图通过读取数据分区的子集,并在不修改数据布局的情况下以加权的方式组合部分答案,来快速和近似地回答查询。我们将演示如何使用一组预先计算的汇总统计信息有效地执行此查询处理,这些统计信息告知分区子集和权重的选择。我们开发了使用统计数据来评估分区的相似性和重要性的新方法。我们在多个数据集和数据布局上的实验表明,要实现与统一分区采样相同的相对误差,我们的技术可以减少2.7×到70×的分区读取数量,每个分区存储的统计数据需要少于100KB。 

    我们介绍PS3(带汇总统计的分区选择),一个通过加权分区选择支持AQP的系统(图1)。我们的主要用例是在大规模生产查询处理系统中,如Spark [15], F1 [52], SCOPE[21],其中查询只读取,数据集是批量附加的。我们的目标是在给定采样预算(或可读取数据的比例)的情况下,最小化近似误差。PS3不是存储预计算的样本[14,16,22],这需要大量的存储预算来为广泛的查询[25,44]提供良好的近似,而是在查询优化期间专门执行采样。最后,与之前的工作[14,48,54]中研究的查询范围类似,PS3支持单表查询SUM、COUNT(*)、AVG聚合、GROUP BY对具有中等区别性的列集,谓词为单列子句上的连接词、析取词或否定。

 

 总结:这是AQP问题,文中主要采用了patition的方法实现采样。具体采用了分层重要性采样。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值