Hadoop combine和parition的作用

最新推荐文章于 2023-06-30 18:45:00 发布

我是方小磊

最新推荐文章于 2023-06-30 18:45:00 发布

阅读量404

点赞数 1

分类专栏： Hadoop面试

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44844089/article/details/117353237

版权

Hadoop面试专栏收录该内容

8 篇文章 0 订阅

订阅专栏

combiner的作用

combiner是reduce的实现，在map端运行计算任务，减少map端的输出数据。

作用就是优化。

但是combiner的使用场景是mapreduce的map输出结果和reduce输入输出一样。也就是说如果map端的输出结果

就如图所示，使用了combiner，在mapper端也会对键值对进行一次reduce。然后再发送给reducer。

但是实际上要注意的是，combiner的完成阶段是在mapper端的排序阶段之后的。

在这里插入图片描述
如果不用combiner，那么，所有的结果都是reduce完成，效率会相对低下。使用combiner，先完成的map会在本地聚合，提升速度。

对于hadoop自带的wordcount的例子，value就是一个叠加的数字，所以map一结束就可以进行reduce的value叠加，而不必要等到所有的map结束再去进行reduce的value叠加。

combiner使用的合适，可以在满足业务的情况下提升job的速度，如果不合适，则将导致输出的结果不正确。

parition

partition的默认实现是hashpartition，是map端将数据按照reduce个数取余，进行分区，不同的reduce来copy自己的数据。

partition的作用是将数据分到不同的reduce进行计算，加快计算效果。

我是方小磊

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

我是方小磊 CSDN认证博客专家 CSDN认证企业博客

码龄5年

146: 原创

5万+: 周排名

35万+: 总排名

33万+: 访问

: 等级

2930: 积分

86: 粉丝

312: 获赞

75: 评论

1455: 收藏

私信

关注

热门文章

分类专栏

最新评论

pytorch如何导入本地数据集（CIFAR10为例）——详细教程
菜Cai^-^*: 是在class CIFAR100(CIFAR10)这个里面修改而不是class CIFAR10，我之前改错地方了就出现了这个问题
String 和new String 的区别
甜崽团子: 终于明白了
数据库面试题：Redis如何保证数据一致性
m0_56918183: 说的对。主要想说先操作数据库窗口期会短很多，如果先搞缓存也没有别的方案做保障，然后被写入脏数据了可能是永久性不一致。阿里云给的解决方案单体数据库情况下用了一个异步删除缓存的binlog，也就是这里的，它整体还是先操作了数据库。这个跟你说的一样普适大部分，数据一致性要求严格自然舍弃一些性能以及分区容错。一切取决于业务
数据库面试题：Redis如何保证数据一致性
晓~: 其实你想想加锁的意义和 redis 的功能性，其实就知道，加锁肯定损耗性能，redis 又是为了提高性能，怎样都会有影响，还是那句话，有舍才有得。一切以完成业务的目的为出发点。
数据库面试题：Redis如何保证数据一致性
晓~: 不管你是先操作数据库再删除缓存还是先删除缓存再操作数据库，都会有一个窗口期的，区别在于窗口期的时长以及是否满足你业务需求，你业务如果觉得这个数据只要保证最终一致性那只需要用这种旁路缓存的方式就行了，大多数场景都能满足了。你要是业务必须要求实时读取准确度，那这种旁路缓存方式以及什么延时双删都不能满足这种需求。强一致性场景下，要不你就不用缓存，要不你就改成写操作之前先加一个锁，这样读取时先判断是否加锁，没加锁再读取 redis，加锁了就去读取 db。但是上面这种方案其实也有一定的误判率，最好的还是不用缓存，纯用数据库，因为你都需要保证强一致性了，那其实时间和性能对你来说没啥意义，安全第一，所以只要保证读取实时即可，不用考虑时间损耗。还是那句话，CAP 没有完全都满足的场景，只能做取舍。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。