Approximate Partition Selection for Big-Data Workloads using Summary Statistics

西西弗的小蚂蚁

已于 2024-04-09 11:59:19 修改

阅读量3

点赞数

分类专栏：层次聚类文章标签：大数据

于 2022-11-08 15:51:40 首次发布

本文链接：https://blog.csdn.net/zj_18706809267/article/details/127752126

版权

层次聚类专栏收录该内容

16 篇文章 0 订阅

订阅专栏

Approximate Partition Selection for Big-Data Workloads using Summary Statistics (VLDB2020)

许多大数据集群将数据存储在大分区中，这些分区支持粗粒度的分区级访问。因此，通过行级采样的近似查询处理效率很低，通常需要读取多个分区。在这项工作中，我们试图通过读取数据分区的子集，并在不修改数据布局的情况下以加权的方式组合部分答案，来快速和近似地回答查询。我们将演示如何使用一组预先计算的汇总统计信息有效地执行此查询处理，这些统计信息告知分区子集和权重的选择。我们开发了使用统计数据来评估分区的相似性和重要性的新方法。我们在多个数据集和数据布局上的实验表明，要实现与统一分区采样相同的相对误差，我们的技术可以减少2.7×到70×的分区读取数量，每个分区存储的统计数据需要少于100KB。

我们介绍PS3(带汇总统计的分区选择)，一个通过加权分区选择支持AQP的系统(图1)。我们的主要用例是在大规模生产查询处理系统中，如Spark [15]， F1 [52]， SCOPE[21]，其中查询只读取，数据集是批量附加的。我们的目标是在给定采样预算(或可读取数据的比例)的情况下，最小化近似误差。PS3不是存储预计算的样本[14,16,22]，这需要大量的存储预算来为广泛的查询[25,44]提供良好的近似，而是在查询优化期间专门执行采样。最后，与之前的工作[14,48,54]中研究的查询范围类似，PS3支持单表查询SUM、COUNT(*)、AVG聚合、GROUP BY对具有中等区别性的列集，谓词为单列子句上的连接词、析取词或否定。

总结：这是AQP问题，文中主要采用了patition的方法实现采样。具体采用了分层重要性采样。

西西弗的小蚂蚁

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Approximate Partition Selection for Big-Data Workloads using Summary Statistics

我们的主要用例是在大规模生产查询处理系统中，如Spark [15]， F1 [52]， SCOPE[21]，其中查询只读取，数据集是批量附加的。我们的目标是在给定采样预算(或可读取数据的比例)的情况下，最小化近似误差。我们在多个数据集和数据布局上的实验表明，要实现与统一分区采样相同的相对误差，我们的技术可以减少2.7×到70×的分区读取数量，每个分区存储的统计数据需要少于100KB。在这项工作中，我们试图通过读取数据分区的子集，并在不修改数据布局的情况下以加权的方式组合部分答案，来快速和近似地回答查询。
复制链接

扫一扫