海量数据去重神器——布隆过滤器

最新推荐文章于 2024-05-23 13:50:45 发布

xianyuxiaoqiang

最新推荐文章于 2024-05-23 13:50:45 发布

阅读量3.3k

点赞数 6

分类专栏：大数据文章标签：布隆过滤器

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xianyuxiaoqiang/article/details/93896428

版权

本文介绍了在大数据处理中，面对海量数据去重的问题，传统的HashSet方法面临内存和速度挑战。文章详细讲解了布隆过滤器的工作原理，并结合Spark展示了如何在实际操作中初始化、更新和使用布隆过滤器进行去重，特别强调了在数据量较大时的性能优化策略。

摘要由CSDN通过智能技术生成

1.前言

大数据处理过程中，常常遇到去重的需求。

例如，头条推荐系统要求对每个用户都不会出现重复推荐。

传统的做法是，将所有的记录都采用类似HashSet的结构缓存起来，当需要判断新的数据是否重复时，通过集合的contains方法判断。

当数据量达到亿级时，这种方法消耗的内存，以及计算的速度都是不可接受的。

比如，对于头条推荐系统，假设注册用户为100万，平均每个用户每月推荐1000篇文章，并假设允许一个月之后出现重复推荐。

那么，缓存的推荐记录数为：100万 * 1000 = 10亿。假设采用32字节的UUID作为ID，则一共接近28GB字节。

如果用户量上千万甚至上亿，这种开销会指数级上升。

有人可能想到采用分片的方法，将大集合拆分成若干小集合，例如按userId分片，每10万用户一个小集合，那么每个集合可以降到3GB左右。

这是处理海量数据必备的手段。

但是分片之后呢？10个3GB的大集合，势必要搭建一个Redis集群，还要给Redis集群配置高可用、副本集等等一系列配套设施。可以说成本不低。

在现有的基础设施范围内，有没有更优的方案？有！布隆过滤器。

2.关于布隆过滤器

布隆过滤器百科

3.如何与Spark结合

Spark提供了布隆过滤器的原生实现，经实际验证，与Spark生态

最低0.47元/天解锁文章

xianyuxiaoqiang

关注

6
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
海量数据去重神器——布隆过滤器

1.前言大数据处理过程中，常常遇到去重的需求。例如，头条推荐系统要求对每个用户都不会出现重复推荐。传统的做法是，将所有的记录都采用类似HashSet的结构缓存起来，当需要判断新的数据是否重复时，通过集合的contains方法判断。当数据量达到亿级时，这种方法消耗的内存，以及计算的速度都是不可接受的。比如，对于头条推荐系统，假设注册用户为100万，平均每个用户每月推荐1000篇文...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。