Hadoop一定会问的面试题（MapReduce）

黑皮磊

已于 2022-04-09 18:25:16 修改

阅读量729

点赞数

分类专栏： hadoop 文章标签： hadoop 大数据 mapreduce

于 2022-03-30 03:17:17 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_49539546/article/details/123836506

版权

1.hadoop解决数据倾斜的方法。

首先什么是数据倾斜？以及现象

比如一个文件 a b c

a 一亿个 map1

b 1个 map2

c 1个 map3

做wordcount

以及现象： map1 99% map2 100% mp3 100%

如何解决数据倾斜：

1.combiner (a,1),....(a,1)->(a.1亿）减少网络传输

但是avg不适合，如果导致数据倾斜的文件的key分布在很多文件中，不同的mapper 这种就不太适用

2.如果导致数据倾斜的文件的key分布在很多文件中

2.1 局部聚合+全局聚合

第一次map ：对于导致数据倾斜的key，加上一个随机数前缀，这样原本相同的key也会分到不同的reduce中进行局部聚合

第二次map：去掉前缀key，进行全局聚合

思想：两次MR，第一次将key随机散列到不同的reduce中处理，达到负载均衡，

第二次再根据去除掉key的随机前缀，按照原本的key进行reduce处理

2.2 增加reduce数，提高并行度

job.setNumReduceTasks(3);
也可以设置0，reduce就不输出了，直接显示map结果

2.3 实现自定义分区。

partitioner ：按照某种规则（可以自定义）对map输出的数据进行分区操作。默认的是HashPartitner

顺序：map-》Partitioner-》reduce

最低0.47元/天解锁文章

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
Hadoop一定会问的面试题（MapReduce）

1.hadoop解决数据倾斜的方法。首先什么是数据倾斜？以及现象比如一个文件 a b ca 一亿个 map1b 1个 map2c 1个 map3做wordcount以及现象： map1 99% map2 100% mp3 100%如何解决数据倾斜：1.combiner (a,1),....(a,1)->(a.1亿）减少网络传输但是avg不适合，如果导致数据倾斜的文件的key分布在很多文件中，不同的mapper 这种就不太适用2.如果导致数据倾斜..
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。