布隆过滤器

布隆过滤器是一种节省空间的数据结构,用于判断一个元素是否可能在一个集合中。它通过K个哈希函数将元素映射到位数组,检索时依据位数组判断。虽然存在误识别率,但在存储空间有限且需要高效查询的场景下,如数据库查询加速、URL去重、垃圾邮件过滤等,布隆过滤器展现出优势。
摘要由CSDN通过智能技术生成

一、布隆过滤器原理

原理:当一个元素被加入集合时,通过K个hash函数将这个元素映射成一个位数组中的K个点,把它们置为1。检索时,我们只要看看这些点是不是都是1就(大约)知道集合中有没有它了:如果这些点有任何一个0,则被检元素一定不在;如果都是1,则被检元素很可能在。

作用:布隆过滤器(bloom filter)可以用于检索一个元素是否在一个集合中。

优点:

1.比起一般的算法如数组、链表、树,hash表等,可以大大节约存储空间和提高查询效率。

2.全量存储但不存储元素本身,在某些保密要求非常严格的场合有优势

缺点:

1.有一定的误识别率

2.删除元素困难。

3.数组长度以及hash函数个数确定过程复杂

二、使用方法

1.布隆过滤器添加元素:

Add用来添加元素到集合内将要添加的元素给k个哈希函数得到对应于位数组上的k个位置将这k个位置设为1。

2.布隆过滤器查询元素:

Test用来确认某个元素是否在集合内。将要查询的元素给k个哈希函数得到对应于位数组上的k个位置

1)如果k个位置有一个为0,则肯定不在集合中

2)如果k个位置全部为1,则可能在集合中,,布隆过滤器的假正率(False positive rate)用来描述这一概率,其随着数据的增大而增大,同时也和所使用的hash函数有关。

 

三、使用场景

1.对Key-Value数据库系统使用布隆过滤器来加快查询过程,快速查询value是否存在保存的key中,减少磁盘查找的IO次数或者网络请求。

2.高并发系统中某个用户数据是否已存在

3.在爬虫系统中,对已经爬过的URL进行去重

4.使用布隆过滤器来对邮箱系统的垃圾邮件进行过滤

5.文档存储检索系统也可以采用布隆过滤器来检测先前存储的数据

6.Redis防雪崩(缓存穿透),避免查询一个在缓存内必然不存在的数据,导致每次请求都要去存储层去查询,导致在大流量下数据库可能挂掉的情况。

 


 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值