hadoop 切片机制详解

置顶小码农叔叔

已于 2022-08-09 20:29:34 修改

阅读量1.4w

点赞数 11

分类专栏： hadoop 大数据文章标签： hadoop切片机制 hadoop 切片 hadoop 切片机制详解

于 2022-01-02 17:38:36 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhangcongyi420/article/details/122276797

版权

大数据同时被 2 个专栏收录

21 篇文章 20 订阅 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

13 篇文章 2 订阅

订阅专栏

前言

切片这个词对于做过python开发的同学一定不陌生，但是与hadoop中的切片有所区别，hadoop中的切片是为了优化hadoop的job在处理过程中MapTask阶段的性能达到最优而言

在这里插入图片描述

上面是一张MapReduce读取一个文本数据的逻辑顺序处理图。我们知道，不管是本地运行还是集群模式下，最终以job的任务调度形式运行，主要分为两个阶段

Map阶段，开启MapTask处理数据的读取
Reduce阶段，开启ReduceTask对数据做聚合

比如在wordcount案例中，一段文本数据，在map阶段首先被解析，拆分成一个个的单词，其实对hadoop来说，这项工作的完成，是由背后开启的一个MapTask进行处理的，等job处理完成，看到在目标文件夹下，生成了对应的单词统计结果

如果有多个单词统计文本文件要处理呢？我们不妨改造下wordcount的job代码，在一个目录下放多个处理文件，看运行完毕的结果如何呢？

在这里插入图片描述

pub

了解本专栏

超级会员免费看

小码农叔叔

关注

11
点赞
踩
11

收藏

觉得还不错? 一键收藏
打赏
16
评论
hadoop 切片机制详解

hadoop切片机制详解
复制链接

扫一扫

专栏目录

评论 16

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

小码农叔叔 谢谢鼓励

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。