什么是MapReduce之Shuffle？看了这篇文章，我想你就清楚了

最新推荐文章于 2022-11-15 22:20:23 发布

一颗仙橙的程序员之旅

最新推荐文章于 2022-11-15 22:20:23 发布

阅读量799

点赞数 1

分类专栏：大数据学习

本文链接：https://blog.csdn.net/weixin_44598691/article/details/105013622

版权

前言：（引用）
腾讯分布式数据仓库（Tencent distributed Data Warehouse, 简称TDW）基于开源软件Hadoop和Hive进行构建，并且根据公司数据量大、计算复杂等特定情况进行了大量优化和改造，目前单集群最大规模达到5600台，每日作业数达到100多万，已经成为公司最大的离线数据处理平台。为了满足用户更加多样的计算需求，TDW也在向实时化方向发展，为用户提供更加高效、稳定、丰富的服务。

TDW计算引擎包括两部分：一个是偏离线的MapReduce，一个是偏实时的Spark，两者内部都包含了一个重要的过程——Shuffle。本文对shuffle过程进行解析，并对两个计算引擎的shuffle过程进行比较，对后续的优化方向进行思考和探索，期待经过我们不断的努力，TDW计算引擎运行地更好。

Shuffle的意思是什么？Shuffle的正常意思是洗牌或弄乱，可能大家更熟悉的是Java API里的Collections.shuffle(List)方法，它会随机地打乱参数list里的元素顺序。如果你不知道MapReduce里Shuffle是什么，那么请看这张图：
在这里插入图片描述
这张是官方对Shuffle过程的描述，这里你只要清楚Shuffle的大致范围——怎样把map task的输出结果有效地传送到reduce端，也可以这样理解，Shuffle描述着数据从map task输出到reduce task输入的这段过程。
在Hadoop这样的集群环境中，大部分map task与reduce task的执行是在不同的节点上。当然很多情况下Reduce执行时需要跨节点去拉取其它节点上的map task结果。如果集群正在运行的job有很多，那么task的正常执行对集群内部的网络资源消耗会很严重。这种网络消耗是正常的，我们不能限制，能做的就是最大化地减少不必要的消耗。还有在节点内，相比于内存，磁盘IO对job完成时间的影响也是可观的。从最基本的要求来说，我们对Shuffle过程的期望可以有：

完整地从map task端拉取数据到reduce 端。

最低0.47元/天解锁文章

一颗仙橙的程序员之旅

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
什么是MapReduce之Shuffle？看了这篇文章，我想你就清楚了

前言：（引用）腾讯分布式数据仓库（Tencent distributed Data Warehouse, 简称TDW）基于开源软件Hadoop和Hive进行构建，并且根据公司数据量大、计算复杂等特定情况进行了大量优化和改造，目前单集群最大规模达到5600台，每日作业数达到100多万，已经成为公司最大的离线数据处理平台。为了满足用户更加多样的计算需求，TDW也在向实时化方向发展，为用户提供更加高效...
复制链接

扫一扫