presto sql优化

最新推荐文章于 2024-05-04 03:23:25 发布

woloqun

最新推荐文章于 2024-05-04 03:23:25 发布

阅读量2.6k

点赞数 1

分类专栏： presto 文章标签： presto

本文链接：https://blog.csdn.net/woloqun/article/details/99579223

版权

presto 专栏收录该内容

15 篇文章 0 订阅

订阅专栏

distinct 与approx_distinct
distinct这种操作会把所有计算集中在一个节点上，速度慢可想而知；如果不是精准计算的话可以考虑使用approx_distinct(x)代替count(distinct x),速度能够提升不少，但缺点是approx_distinct有2-3%的误差(官方给出，但有次数据测试误差达到6-7%，这个还和数据整体分布有关)，如果没办法接受这个误差，同时又需要精准计算可以考虑使用group count代替，性能和approx_distinct方式差不多，主要是相对麻烦点，例子如下
在这里插入图片描述
join
大小表关联
hive是将小表放在前边，而presto恰恰相反；hive会将小表广播到各个节点进行mapside join；而presto则是将左侧大表拆分到各个节点，然后将整个右表数据发送到大表各个节点上进行join，这点要特别注意；

左右表都比较大
修改配置distributed-joins-enabled (presto version >=0.196)
在每次查询开始使用distributed_join的session选项

-- set session distributed_join = 'true'
SELECT * FROM large_table, large_table1  WHERE large_table1.id = large_table.id

join前，会将两个表hash value值相同的关联主键，发送到同一个节点

(持续更新)

woloqun

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
presto sql优化

distinct 与approx_distinctdistinct这种操作会把所有计算集中在一个节点上，速度慢可想而知；如果不是精准计算的话可以考虑使用approx_distinct(x)代替count(distinct x),速度大概能够提升3倍左右，但缺点是approx_distinct有2-3%的误差(官方，有次数据测试误差达到6-7%，这个还和数据整体分布有关)，如果没办法接受这个误差，...
复制链接

扫一扫

专栏目录