filter与coalesce的配合使用_尚硅谷大数据培训

最新推荐文章于 2024-01-02 09:40:04 发布

尚硅谷铁粉

最新推荐文章于 2024-01-02 09:40:04 发布

阅读量191

点赞数

文章标签：大数据 spark java

本文链接：https://blog.csdn.net/zjjcchina/article/details/126052244

版权

本文探讨了在Spark任务中，filter操作可能导致的分区数据不平衡和资源浪费问题，以及由此引发的数据倾斜。解决方案是使用coalesce算子进行分区重组，以减少分区数量并均衡数据分布。coalesce在数据量减小时可避免shuffle，提高效率；而在数据量大幅变化时，开启shuffle以确保性能。在filter后结合coalesce，能有效提升任务处理性能和资源利用率。

摘要由CSDN通过智能技术生成

filter与coalesce的配合使用

在Spark任务中我们经常会使用filter算子完成RDD中数据的过滤，在任务初始阶段，从各个分区中加载到的数据量是相近的，但是一旦进过filter过滤后，每个分区的数据量有可能会存在较大差异，如图2-6所示：

图2-6 分区数据过滤结果

根据图2-6我们可以发现两个问题：

每个partition的数据量变小了，如果还按照之前与partition相等的task个数去处理当前数据，有点浪费task的计算资源；
每个partition的数据量不一样，会导致后面的每个task处理每个partition数据的时候，每个task要处理的数据量不同，这很有可能导致数据倾斜问题。

如图2-6所示，第二个分区的数据过滤后只剩100条，而第三个分区的数据过滤后剩下800条，在相同的处理逻辑下，第二个分区对应的task处理的数据量与第三个分区对应的task处理的数据量差距达到了8倍，这也会导致运行速度可能存在数倍的差距，这也就是数据倾斜问题。

针对上述的两个问题，我们分别进行分析：

针对第一个问题，既然分区的数据量变小了，我们希望可以对分区数据进行重新分配，比如将原来4个分区的数据转化到2个分区中，这样只需要用后面的两个task进行处理即可，避免了资源的浪费。
针对第二个问题，解决方法和第一个问题的解决方法非常相似，对分区数据重新分配，让每个partition中的数据量差不多，这就避免了数据倾斜问题。

那么具体应该如何实现上面的解决思路？我们需要coalesce算子。

repartition与coalesce都可以用来进行重分区，其中repartition只是coalesce接口中shuffle为true的简易实现，coalesce默认情况下不进行shuffle，但是可以通过参数进行设置。

假设我们希望将原本的分区个数A通过重新分区变为B，那么有以下几种情况：