Druid压测和数据摄入优化

最新推荐文章于 2023-08-11 17:14:40 发布

攻城狮Kevin

最新推荐文章于 2023-08-11 17:14:40 发布

阅读量426

点赞数

分类专栏： Druid

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wx1528159409/article/details/106237206

版权

Druid 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

Druid压测结论：

1.“枚举型”和“连续数值型”在当前业务数据量级（500G左右）下摄入和查询功能可轻松支撑，摄入时长可保证30分钟以内，查询用时可保证200ms以内。

2.10倍于当前业务数据量级下，枚举型摄入时长可优化至2小时，连续数值型可优化至40分钟，查询用时可保证200ms以内。

Druid数据摄入优化经验

1. 对HDFS文件开启gz压缩，测试gz格式比lzo格式入库要省30%的时间，因为数据压缩率变大。

2. 对tuningConfig里的 "targetPartitionSize" : 1750000,（每个分片的文件大小，单位kb）

"maxPartitionSize" : 2000000（每个分片最大行数）

Druid对这俩参数会自动取较小的生效，可以对targetPartitionSize降低一些，这样分片数变多，reduce端个数变多，运行时间变少

暂定改到128M

3. 对于数据量过大运行过慢的情况

HDFS数据入库Druid的时候，会有两组MRjob，第一组MRjob会从完整数据中抽样15%入库Druid，且入库时间为完整数据的15%，这15%的数据入库完后Druid会按照比例计算出完整数据需要设定多少个分片；然后走第二个MRjob，将完整数据入库Druid。

这样，如果数据量过大，可以在ioConfig中手动指定分片数，这样第一步的MRjob就不会运行，直接走第二步的MRjob，省下15%的时间

ps：分片数的个数最大不能超过集群机器的核数

分片数越多，入库速度越快，因为reducer端个数越多，但是分片数过多会导致查询时间变长，比如一次查询只能读取5000个分片，集群机器总核数5000，如果分片数设置为2w，那读取就需要读取四次，加大读取时间。

摄入效率最终优化成果：

1.枚举型，原lzo压缩6.3T数据摄入用时6小时+，优化后2小时03分完成，缩减70%

2.连续数值型，原lzo压缩1.8T数据摄入用时1小时20分钟+，优化后40分钟完成，缩减50%

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Druid压测和数据摄入优化

Druid压测结论： 1.“枚举型”和“连续数值型”在当前业务数据量级（500G左右）下摄入和查询功能可轻松支撑，摄入时长可保证30分钟以内，查询用时可保证200ms以内。 2.10倍于当前业务数据量级下，枚举型摄入时长可优化至2小时，连续数值型可优化至40分钟，查询用时可保证200ms以内。Druid数据摄入优化经验1.对HDFS文件开启gz压缩，测试gz格式比lzo格式入库要省30%的时间，因为数据压缩率变大。2.对tuningConfig里的"targetParti...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。