Presto入门概念基础

最新推荐文章于 2024-07-10 15:16:59 发布

大数据界一个小小的程序员

最新推荐文章于 2024-07-10 15:16:59 发布

阅读量396

点赞数 11

文章标签：大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_57211246/article/details/135538629

版权

Presto是一个分布式SQL查询引擎，适用于交互式分析查询，数据量支持PB到GB字节，不具备存储功能，可以接入多种数据源，并支持跨数据源的数据查询计算

特点：

查询速度快，可以快速给出结果

内存需求大，计算成本高

给予其他组件之上进行快速运算

替代Hive、MapReduce，擅长OLAP

优点：

1.Presto与Hive相比，都能够处理PB级别的海量数据分析，但Presto是基于内存计算，减少没必要的硬盘IO，所以更快

2.能够连接多个数据源，跨数据源连表查

3.部署比Hive简单，因为Hive是基于HDFS的，需要部署HDFS

缺点：

1.虽然能够处理PB几倍的海量数据分析，但不代表Presto能把PB级别的数据都放在内存中计算，而是根据场景，如count，avg等聚合运算，是边读数据变计算，在清除内存，在读数据在计算，这种消耗的内存并不高，但是连表查询可能就产生大量的临时数据，因此速度会变慢，反而Hive会更适合

2.为了到达实时查询，可能会想到用它直连MySql来操作查询，这种效率并不会提升，瓶颈依然在Mysql，此时还引入了网络瓶颈，所以会比原来操作数据要慢

Presto优化：

数据存储：

1.合理设置分区：与Hive类似，Presto会根据元数据信息读取分区数据，合理的分区能减少Presto的数据读取两，提升查询性能

2.使用列式存储，Presto对ORC文件读取做了特定优化，因此在Hive中创建Presto使用的表时，建议采用ORC式存储，相对于Parquet，Presto对ORC的支持更好

3.使用压缩：数据压缩可以减少节点间数据传输对IO带宽压力，对于即席查询需要快速解压，建议采用Snappy压缩

SQL优化：

1.子查询，只选择需要的字段

由于采用列式存储，选择则需要的字段可加快字段的读取，减少数据量，避免采用*读取所有字段

2.查询加上分区字段

对于有分区的表，where语句优先使用分区字段进行过滤。acc_day是分区字段，visit_time是具体访问时间

3.GroupBy语句优化

合理安排GroupBy语句中字段顺序对性能有一定提升，将GroupBy语句中字段按照每个字段distinct数据多少进行降序排列

4.orderby时使用limit

orderby需要扫描数据到单个worker节点进行排序，导致单个worker需要大量内存，如果是查询TopN或者BottomN，使用limit可减少排序计算和内存压力

5.join时将大表放在左边

大数据界一个小小的程序员

关注

11
点赞
踩
7

收藏

觉得还不错? 一键收藏
打赏
0
评论
Presto入门概念基础

1.虽然能够处理PB几倍的海量数据分析，但不代表Presto能把PB级别的数据都放在内存中计算，而是根据场景，如count，avg等聚合运算，是边读数据变计算，在清除内存，在读数据在计算，这种消耗的内存并不高，但是连表查询可能就产生大量的临时数据，因此速度会变慢，反而Hive会更适合。2.使用列式存储，Presto对ORC文件读取做了特定优化，因此在Hive中创建Presto使用的表时，建议采用ORC式存储，相对于Parquet，Presto对ORC的支持更好。1.子查询，只选择需要的字段。
复制链接

扫一扫

大数据界一个小小的程序员 CSDN认证博客专家 CSDN认证企业博客

码龄3年

21: 原创

117万+: 周排名

7万+: 总排名

8256: 访问

: 等级

421: 积分

538: 粉丝

205: 获赞

13: 评论

65: 收藏

私信

关注

热门文章

最新评论

大数据高级阶段面试题（实时2）
普通网友: 引领技术潮流，是不可多得的好文，十分值得借鉴和参考。期待博主未来能够持续分享更多好文【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
Redis的持久化机制
CSDN-Ada助手: 恭喜您撰写了关于Redis持久化机制的博客！持续创作对于扩展自己的知识和帮助他人了解技术领域都非常重要。如果可能的话，下一步您可以考虑分享一些关于Redis的高级应用或者性能优化方面的内容，这将会为读者提供更多的参考价值。期待您更多精彩的文章，加油！
大数据中级阶段数仓和数据建模知识点
AK+M4: 求更，根本不够看
zookeeper中主机互相免密的过程
CSDN-Ada助手: 恭喜您写了第15篇博客！能够分享关于zookeeper中主机互相免密的过程，对大家学习和工作都有很大帮助。希望您能继续坚持创作，分享更多有价值的内容。下一步，或许可以考虑分享一些实际操作中的注意事项或者技巧，让读者更容易理解和应用。谢谢您的分享！
Spark优化
CSDN-Ada助手: 恭喜您写了第14篇博客，内容围绕“Spark优化”，对大家的学习和工作都有很大帮助。希望您能继续坚持创作，分享更多有价值的内容。下一步建议可以考虑结合实际案例，深入探讨Spark优化的具体方法和技巧，这样更能帮助读者理解和应用。期待您的更多精彩文章！

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

大数据界一个小小的程序员 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。