ETL - 性能分析

最新推荐文章于 2023-01-13 16:20:24 发布

xyzkenan

最新推荐文章于 2023-01-13 16:20:24 发布

阅读量530

点赞数

文章标签： ETL 大数据大数据学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xyzkenan/article/details/103704512

版权

本文探讨了ETL过程中遇到的性能问题及其解决方案。首先，检查环境瓶颈，包括CPU、内存、I/O和网络。然后，根据数据特征确定分区和分桶策略，避免数据倾斜。接着，分析抽取、计算、查找表、聚集、过滤和加载等环节，识别性能瓶颈。此外，还强调了查找表、排序和聚集操作的资源消耗，以及转换和更新操作的影响。最后，通过监控Task运行情况来辅助问题定位，确保合理并发执行。

摘要由CSDN通过智能技术生成

ETL过程中难免遇到性能问题,运行很慢是一件较常见的事情,遇到这些问题时,我们该如何分析,解决呢?首先我们要找到问题出在哪里,也就是系统的瓶颈在哪.

确定环境是否有瓶颈:检查资源是否有效配置,也就是要确定是由CPU、内存、I/O和网络等产生的瓶颈，还是由ETL处理过程产生的瓶颈。
根据数据特征,确定分区分桶:

分区字段选择:一般原则为根据系统的业务类型来分则分区字段。通常来讲事实表是数据都包含时间属性，而报表业务也多在一定的时间范围内做统计分析，那么根据时间字段进行分区是常用的选择。而如果业务更多按照部门做统计分析，那么更适合按照部门代码，地域代码进行分区。所以贴近业务的特点选择分区是第一要素。
分区个数:分区个数的选择需要综合考量数据的特性，在选择好分区字段后，我们需要根据数据的特点确定分区个数的可选择区间。分区个数不宜太少，需要根据业务特点来确定，并保证分区里面不会太多的冷热数据混合。譬如SQL业务大部分都是操作2~3个月的数据，那么我们就尽量按照3个月做一个分区，如果我们选择1年做一个分区的话，每个SQL业务实际执行的时候就会多读取前面9个月的数据，这这部分的资源和IO开销都是没有必要的。

实际情况中我们看到的更多的DDL设计都是分区数量过多，譬如单个分区的数据量不超过1GB，或者按照天来分区，这些都是不合适的设计。分区过多的坏处是会导致过多的系统资源占用。

分桶字段选择:一般遵循的原则为，选择离散度高的字段进行分桶。可以通过收集的数据特征，如Distinct Value来做参考，值越大的可以优先作为考虑对象。分桶字段选择时，注意尽量使记录分布均匀，避免数据倾斜。
分桶个数:针对不同的存

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。