sparksql源码系列 | 一文搞懂with one count distinct 执行原理

小萝卜算子

于 2023-02-16 16:06:12 发布

阅读量596

点赞数

分类专栏： spark源码精读分析系列文章标签：大数据 spark hadoop 数据仓库 java

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xiaoluobutou/article/details/129047234

版权

本文深入探讨SparkSQL中with one count distinct的执行原理，从Aggregate函数的不同模式到物理执行计划的生成，详细阐述了在只有count distinct和存在其他非distinct聚合函数情况下的执行流程，并提供了关键点的调试方法。通过对Spark 3.2源码的分析，揭示了其相对于Hive的优化策略。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

今天下午的源码课，主要是对上两次课程中留的作业的讲解，除了几个逻辑执行计划的优化器外，重点是planAggregateWithOneDistinct（有一个count distinct情况下生成物理执行计划的原理）。

在面试时，或多或少会被问到有关count distinct的优化，现在离线任务用到的基本就是hivesql和sparksql，那sparksql中有关count distinct做了哪些优化呢？

实际上sparksql中count distinct执行原理可以从两个点来说明：

with one count distinct
more than one count distinct

这篇文章主要聊一聊 with one count distinct，如果你正好也想了解这块，就点赞、收藏吧~

ps：文中有两个原理的图片比较大，上传上来之后会有点不清晰，如果有需要的朋友可文末加俺，俺发你

本文基于spark 3.2

本文大纲

1、Aggregate函数的几种mode

2、生成WithOneDistinct物理执行计划的几个阶段

3、除了count distinct，没有其他非distinct聚合函数的情况的执行原理

4、除了count distinct，有其他非distinct聚合函数的情况的执行原理

5、关键点调试

6、总结

1、Aggregate函数的几种mode

Partial: 局部数据的聚合。会根据读入的原始数据更新对应的聚合缓冲区，当处理完所有的输入数据后，返回的是局部聚合的结果

PartialMerge: 主要是对Partial返回的聚合缓冲区（局部聚合结果）进行合并，但此时仍不是最终结果，还要经过Final才是最终结果(count distinct 类型)

Final: 起到的作用是将聚合缓冲区的数据进行合并，然后返回最终的结果

Complete: 不进行局部聚合计算，应用在不支持Partial模式的聚合函数上（比如求百分位percentile_approx）

非distinct类的聚合函数的路线：Partial --> Final

distinct类的聚合函数的路线：Partial --> PartialMerge --> Partial --> Final

2、生成WithOneDistinct物理执行计划的几个阶段

partialAggregate
partialMergeAggregate
partialDistinctAggregate

最低0.47元/天解锁文章

小萝卜算子

博客等级

码龄12年

76
原创

35
点赞

125
收藏

76
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

上一篇：: sparksql源码系列 | 一文搞懂Distribution源码体系(spark3.2)

下一篇：: linux工具——grep文本处理器

最新评论

SparkSql中多个Stage的并发执行
彦祖好好学: 请问大佬，如何进群？
Sparksql Expression的canonicalized(规范化)操作
bit1010: 作者，你好，请教个问题 select b,B,sum(A+b) as ab,sum(B+a) as ba from testdata2 where b>3 group by b b和B两个attribute最后转换为AttributeReference，他们的ID是一样的，同名(大小写不同)的attribute，生成的ID一样，这个逻辑是在什么地方？谢谢
Sparksql源码系列 | 读源码必须掌握的scala基础语法
bit1010: 当在调用一个函数时，把这个函数应用到参数中。如果传递所有预期的参数，则表示您已完全应用它。如果只传递几个参数并不是全部参数，那么将返回部分应用的函数。上面这段说的是部分应用函数，不是偏函数。Spark SQL规则匹配应用使用的是偏函数
数仓面试——补充缺失日期和数据
CSDN-Ada助手: 恭喜你，获得了 2023 博客之星评选的入围资格，请看这个帖子（https://bbs.csdn.net/topics/616963866?utm_source=blogger_star_comment）。请在这里提供反馈： https://blogdev.blog.csdn.net/article/details/129986459?utm_source=blogger_star_comment。
澄清 | snappy压缩到底支持不支持split? 为啥？
Call_me_Mr_P: 感谢科普，终于有个合理的答案了

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

小萝卜算子 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。