一、布隆过滤器原理
原理:当一个元素被加入集合时,通过K个hash函数将这个元素映射成一个位数组中的K个点,把它们置为1。检索时,我们只要看看这些点是不是都是1就(大约)知道集合中有没有它了:如果这些点有任何一个0,则被检元素一定不在;如果都是1,则被检元素很可能在。
作用:布隆过滤器(bloom filter)可以用于检索一个元素是否在一个集合中。
优点:
1.比起一般的算法如数组、链表、树,hash表等,可以大大节约存储空间和提高查询效率。
2.全量存储但不存储元素本身,在某些保密要求非常严格的场合有优势
缺点:
1.有一定的误识别率
2.删除元素困难。
3.数组长度以及hash函数个数确定过程复杂
二、使用方法
1.布隆过滤器添加元素:
Add用来添加元素到集合内将要添加的元素给k个哈希函数得到对应于位数组上的k个位置将这k个位置设为1。
2.布隆过滤器查询元素:
Test用来确认某个元素是否在集合内。将要查询的元素给k个哈希函数得到对应于位数组上的k个位置
1)如果k个位置有一个为0,则肯定不在集合中
2)如果k个位置全部为1,则可能在集合中,,布隆过滤器的假正率(False positive rate)用来描述这一概率,其随着数据的增大而增大,同时也和所使用的hash函数有关。
三、使用场景
1.对Key-Value数据库系统使用布隆过滤器来加快查询过程,快速查询value是否存在保存的key中,减少磁盘查找的IO次数或者网络请求。
2.高并发系统中某个用户数据是否已存在
3.在爬虫系统中,对已经爬过的URL进行去重
4.使用布隆过滤器来对邮箱系统的垃圾邮件进行过滤
5.文档存储检索系统也可以采用布隆过滤器来检测先前存储的数据
6.Redis防雪崩(缓存穿透),避免查询一个在缓存内必然不存在的数据,导致每次请求都要去存储层去查询,导致在大流量下数据库可能挂掉的情况。