大数据SQL执行工具调研总结

最新推荐文章于 2021-08-24 08:00:00 发布

唔系小老虎

最新推荐文章于 2021-08-24 08:00:00 发布

阅读量754

点赞数 1

分类专栏：分布式计算自己总结心得

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xpmars/article/details/51612752

版权

自己总结心得同时被 2 个专栏收录

16 篇文章 0 订阅

订阅专栏

分布式计算

5 篇文章 0 订阅

订阅专栏

下面是这几天来我对于hive on mr/hive on spark /impala / presto/ spark-sql 做的调研之后做的总结，见以下矩阵：

武器库	优点	缺点	Hive Sql支持度	UDF支持
hive on mr	~	慢	全部	支持
hive on spark	~	较慢	全部	支持
impala	快	对于大表需事先对表COMPUTE	对于多count(distinct)语句需要改写	支持
presto	数据量小的表可以秒查	对于数据量大的表基本上跑不了	支持主流Hive Sql	不支持
spark-sql	较快	可能会不稳定	全部	支持

其他总结：
1.presto在执行执行简单sql、无关联表、表不是很大的情况下有秒查优势；

目前看来若要处理实时统计任务/在线查询采用presto是比较合适的；
在有多个大表关联的sql中不建议采用presto执行。

2.impala不可以在一条语句中执行 count distinct，如需要务必将其拆开成多条语句；
impala在并行执行多条sql的时候延迟会大；

impala处理连续任务或者大表任务依旧是我们现在采用的impala比较合适；

3.hive/hive on spark/spark sql 批量查询；
hive/hive on spark 使用方便；
spark sql 可以继续调优参数，而hive on spark的参数设置没有前者灵活。

唔系小老虎

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。