hadoop 实现 Join reduce side join + BloomFilter

最新推荐文章于 2024-11-15 22:52:36 发布

Jee.Li

最新推荐文章于 2024-11-15 22:52:36 发布

阅读量1.2k

点赞数 1

文章标签： hadoop 大数据 big data

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44560436/article/details/121952827

版权

在某些情况下，SemiJoin 抽取出来的小表的 key 集合在内存中仍然存放不下，这时候可以使
用 BloomFiler 以节省空间。
BloomFilter 最常见的作用是：判断某个元素是否在一个集合里面。它最重要的两个方法是：
add() 和 contains()。最大的特点是不会存在 false negative，即：如果 contains()返回 false，
则该元素一定不在集合中，但会存在一定的 true negative，即：如果 contains()返回 true，则
该元素可能在集合中。
因而可将小表中的 key 保存到 BloomFilter 中，在 map 阶段过滤大表，可能有一些不在小表
中的记录没有过滤掉（但是在小表中的记录一定不会过滤掉），这没关系，只不过增加了少量的网络 IO 而已。

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。