SparkSql不同写法的一些坑(性能优化)

最新推荐文章于 2023-11-02 11:48:55 发布

小萝卜算子

最新推荐文章于 2023-11-02 11:48:55 发布

阅读量203

点赞数

分类专栏： spark源码精读分析系列文章标签：数据库性能优化数据仓库 spark sql

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xiaoluobutou/article/details/129065676

版权

说三种情况，看大家有没有遇到类似的场景。

第一种情况：

这种情况也是我经常会遇到的一个场景，之前也有同学拿着sql来问，说这样写会不会影响运行效率：

select  
  tmp.A 
from (select A,B from testdata2) tmp

结论是

不用担心，这样写完全可以被优化

== Analyzed Logical Plan ==
Project [A#3]
+- SubqueryAlias tmp
   +- Project [A#3, B#4]
      +- SubqueryAlias testdata2
         +- View (`testData2`, [a#3,b#4])
            +- SerializeFromObject [knownnotnull(assertnotnull(input[0, org.apache.spark.sql.test.SQLTestData$TestData2, true])).a AS a#3, knownnotnull(assertnotnull(input[0, org.apache.spark.sql.test.SQLTestData$TestData2, true])).b AS b#4]
               +- ExternalRDD [obj#2]  
                         
== Optimized Logical Plan ==
Project [A#3]
+- SerializeFromObject [knownnotnull(assertnotnull(input[0, org.apache.spark.sql.test.SQLTestData$TestData2, true])).a AS a#3]
   +- ExternalRDD [obj#2]

从执行计划上清晰的看到，最终被优化成

select A from testdata2

这样的效果，主要是 ColumnPruning（列裁剪&#

最低0.47元/天解锁文章

小萝卜算子

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
SparkSql不同写法的一些坑(性能优化)

sparksql不同写法的避坑指南
复制链接

扫一扫

专栏目录

小萝卜算子 CSDN认证博客专家 CSDN认证企业博客

码龄12年

76: 原创

30万+: 周排名

79万+: 总排名

3万+: 访问

: 等级

823: 积分

72: 粉丝

34: 获赞

7: 评论

122: 收藏

私信

关注

热门文章

分类专栏

最新评论

Sparksql Expression的canonicalized(规范化)操作
bit1010: 作者，你好，请教个问题 select b,B,sum(A+b) as ab,sum(B+a) as ba from testdata2 where b>3 group by b b和B两个attribute最后转换为AttributeReference，他们的ID是一样的，同名(大小写不同)的attribute，生成的ID一样，这个逻辑是在什么地方？谢谢
Sparksql源码系列 | 读源码必须掌握的scala基础语法
bit1010: 当在调用一个函数时，把这个函数应用到参数中。如果传递所有预期的参数，则表示您已完全应用它。如果只传递几个参数并不是全部参数，那么将返回部分应用的函数。上面这段说的是部分应用函数，不是偏函数。Spark SQL规则匹配应用使用的是偏函数
数仓面试——补充缺失日期和数据
CSDN-Ada助手: 恭喜你，获得了 2023 博客之星评选的入围资格，请看这个帖子（https://bbs.csdn.net/topics/616963866?utm_source=blogger_star_comment）。请在这里提供反馈： https://blogdev.blog.csdn.net/article/details/129986459?utm_source=blogger_star_comment。
澄清 | snappy压缩到底支持不支持split? 为啥？
Call_me_Mr_P: 感谢科普，终于有个合理的答案了
SparkSql窗口函数源码分析（第一部分）
shuttlecock: 大佬，恭候开窗函数的第二部分

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

小萝卜算子 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。