redis布隆过滤器

最新推荐文章于 2024-06-13 09:00:30 发布

似非。

最新推荐文章于 2024-06-13 09:00:30 发布

阅读量176

点赞数

分类专栏： redis 文章标签： redis 数据库

本文链接：https://blog.csdn.net/weixin_44980838/article/details/105038358

版权

4 篇文章 0 订阅

订阅专栏

当用户看过的新闻，肯定会被过滤掉，对于没有看多的新闻，可能会过滤极少的一部分（误判）。
这样可以完全保证推送给用户的新闻都是无重复的

在爬虫系统中，我们需要对url去重，已经爬取的页面不再爬取
当url高达几千万时，如果一个集合去装下这些URL地址非常浪费空间
使用布隆过滤器可以大幅降低去重存储消耗，只不过也会使爬虫系统错过少量页面

向布隆过滤器添加key,会使用 f、g、h hash函数对key算出一个整数索引，然后对长度取余

每个hash函数都会算出一个不同的位置，把算出的位置都设置成1就完成了布隆过滤器添加过程

查询：布隆过滤器值
1）当查询某个key时，先用hash函数算出一个整数索引，然后对长度取余
2）当你有一个不为1时肯定不存在这个key，当全部都为1时可能有这个key
3）这样内存中的布隆过滤器过滤掉大量不存在的row请求，然后去再磁盘进行查询，减少IO操作
删除：不支持
1）目前我们知道布隆过滤器可以支持 add 和 isExist 操作
2）如何解决这个问题，答案是计数删除，但是计数删除需要存储一个数值，而不是原先的 bit 位，会增大占用的内存大小。
3）增加一个值就是将对应索引槽上存储的值加一，删除则是减一，判断是否存在则是看值是否大于0。

关注