Hybrid Shuffle 测试分析和使用建议

最新推荐文章于 2024-07-10 21:37:49 发布

阿里云技术

最新推荐文章于 2024-07-10 21:37:49 发布

阅读量2.2k

点赞数

文章标签： java 大数据开发语言云计算

本文链接：https://blog.csdn.net/weixin_43970890/article/details/130995536

版权

摘要：Apache Flink 社区在 1.16 版本引入了 Hybrid Shuffle Mode[1]，它是传统的 Batch Shuffle 和 Pipelined Shuffle 的结合，让 Flink 批处理具备了更强大的能力。Hybrid Shuffle 的核心思想是打破调度约束，根据可用资源的情况来决定是否需要调度下游任务，同时在条件允许时支持全内存不落盘的数据传输。
为了全面理解 Hybrid Shuffle 的潜力，我们基于 Flink 1.17 版本在多个场景下对 Hybrid Shuffle 进行了测试。本文将基于测试结果详细分析 Hybrid Shuffle 的优势场景，并基于我们的经验给出一些使用建议。

Hybrid Shuffle 的优势分析

相比于传统的批式 Shuffle, Hybrid Shuffle 主要具备以下优势：

调度：
Hybrid Shuffle 打破了 Pipelined Shuffle 所有 Task 必须同时调度，Blocking Shuffle 必须分 Stage 调度的约束：
- 在资源充足时，上下游 Task 可以同时运行
- 在资源不足时，上下游 Task 可以分批先后执行
IO开销：
Hybrid Shuffle 打破了批作业所有数据必须全部落盘并从磁盘消费数据的约束，在上下游同时运行的情况下，它支持直接从内存消费数据，从而在提升作业性能的同时大幅减少磁盘 IO 带来的额外开销。
Hybrid Shuffle 的上述两个优势让它具备了传统批处理所没有的能力，我们对其进行了一系列的实验和分析，主要分为以下几个方面。

填补资源空隙

资源空隙指在作业运行的某些时间点，存在一些空闲的 Slot，导致集群资源不能被充分利用。Flink Blocking Shuffle 由于上下游 Stage 之间的调度约束，在上游 Task 没有完全结束时，下游 Task 无法被调度，从而产生了资源空隙。这种现象在部分 Task 存在数据倾斜的场景下尤为显著。

下图展示了一种 Blocking Shuffle 存在资源空隙的例子以及与之对应的 Hybrid Shuffle 的情况。可以看出 Blocking Shuffle 在这种情况下有 2 个 Slot 是无法被利用的，而 Hybrid Shuffle 的全部 3 个 Slot 都是在使用中的。

值得一提的是：数据倾斜现象是广泛存在的，以 TPC-DS q4 为例：其中一个 HashJoin 算子平均读取的数据量为 204MB，而其中有一个倾斜的 Task 读取的数据量达到了 7.03 GB。测试发现，Hybrid Shuffle 相比 Blocking Shuffle 在该 Query 上的总执行时间减少了 18.74%。

最低0.47元/天解锁文章

阿里云技术

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hybrid Shuffle 测试分析和使用建议

为了全面理解 Hybrid Shuffle 的潜力，我们基于 Flink 1.17 版本在多个场景下对 Hybrid Shuffle 进行了测试。本文将基于测试结果详细分析 Hybrid Shuffle 的优势场景，并基于我们的经验给出一些使用建议。
复制链接

扫一扫