引言
布隆过滤器:
-
由二进制向量(或者说是 位数组)和一些列随机映射函数(hash函数)两部分组成的数据结构。
-
相比于平时常用的 List , Map , Set 等数据结构,它占用的空间更少并且效率更高
-
缺点是其返回的结果是概率性的,而不是非常准确的。
-
理论情况下,添加到集合中的元素越多,误报的可能性就越大。并且,存放在布隆过滤器的数据不容易删除。
原理
当一个元素加入布隆过滤器中的时候,会进行如下操作:
- 使用布隆过滤器中的 hash 函数对元素值进行计算,得到哈希值(有几个哈希函数得到几个哈希值)
- 根据得到的哈希值,在位数组中把对应下标的值置为1
当我们需要判断一个元素是否存在于布隆过滤器的时候,会进行如下操作:
-
对给定元素再次进行相同的哈希运算
-
得到值之后判断位数组中的每个元素是否都是1
- 如果都是1,那么代表再布隆过滤器中存在该值
- 只要存在一个0,就说明该元素不在布隆过滤器中
布隆过滤器的优缺点
优点:
- 时间复杂度低,增加和查询元素的时间复杂为O(N),(N为哈希函数的个数,通常情况比较小)
- 保密性强,布隆过滤器不存储元素本身
- 存储空间小,如果允许存在一定的误判,布隆过滤器是非常节省空间的(相比其他数据结构如Set集合)
缺点:
- 有点一定的误判率,但是可以通过调整参数来降低(为了减小误差可以加长位数组)
- 无法获取元素本身
- 很难删除元素
布隆过滤器的使用场景
布隆过滤器可以告诉我们 “某样东西一定不存在或者可能存在”,也就是说布隆过滤器说这个数不存在则一定不存,布隆过滤器说这个数存在可能不存在
- 解决Redis缓存穿透问题
- 邮件过滤,使用布隆过滤器来做邮件黑名单过滤
- 对爬虫网址进行过滤,爬过的不再爬
- 解决新闻推荐过的不再推荐(类似抖音刷过的往下滑动不再刷到)