Spark性能优化指南——基础篇 shuffle过程,简单来说,就是将分布在集群中多个节点上的同一个key,拉取到同一个节点上,进行聚合或join等操作 参考这篇文章: https://blog.csdn.net/qq_23160237/article/details/85393937?utm_source=app Spark性能优化指南——高级篇 https://blog.csdn.net/qq_23160237/article/details/85256079?utm_source=app