mapreduce

最新推荐文章于 2024-10-15 17:18:12 发布

youqika

最新推荐文章于 2024-10-15 17:18:12 发布

阅读量529

点赞数

分类专栏：算法文章标签： mapreduce 合并

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/youqika/article/details/17474281

版权

算法专栏收录该内容

12 篇文章 0 订阅

订阅专栏

一个map-reduce流水线是一个任务，多条任务同时处理。

此图之前的数据分割省略，假定数据已被分成最左边蓝色大小的块，那么传给map的<key，value>就可能是，

key为数据块所属文件及偏移，value为该数据块包含的文本，map函数开始统计，生成一个列表list<word, 1>，

输出就是<key, value> == <list<word>, list<1>>，就是每个单词统计一次，无视重复，combine则是去重的，输出

的<key, value> == <list<word>, list<count>>，然后进入shuffle阶段，shuffle开始合并多条流水线，也可以看作是

去重，输出的<key, value> == <list<word>, list<count1, count2, count3>>，然后每个reduce只要把传给它的中间

结果统计一下就得到映射到它这条流水线的单词集的计数了，其它的流水线也有自己的单词集计数，所有流水线合

起来就是所有文本的单词集的计数了

一图胜千言

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

youqika CSDN认证博客专家 CSDN认证企业博客

码龄17年

24: 原创

25万+: 周排名

138万+: 总排名

10万+: 访问

: 等级

1378: 积分

20: 粉丝

10: 获赞

5: 评论

31: 收藏

私信

关注

热门文章

分类专栏

算法 12篇
数据结构 2篇
tips 28篇
捣鼓系统 9篇
leetcode 5篇
sql_nosql 9篇

最新评论

gcc系强制链接静态库（同时有.so和.a）
weixin_42494818: 博主还在不，想问下上面出现的问题，加完-static后会出现上面的问题，在main函数之前会挂掉，不知到博主有没有解决
gcc系强制链接静态库（同时有.so和.a）
10km 回复 youqika: 谢谢回复，我找到了,这个用法不是gcc的命令行参数，是ld的, https://sourceware.org/binutils/docs/ld/Options.html
gcc系强制链接静态库（同时有.so和.a）
youqika 回复 10km: 好久了，不记得了，stackoverflow？
gcc系强制链接静态库（同时有.so和.a）
10km: 博主您好，"-l:libxxx.a"这种方式连接静态库的确很优雅,但我似乎没有在gcc的手册上找到说明，您能告诉我出处么？
想到一道考察C功底的笔试题
盖_儿: 很简单啊

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。