布隆过滤器

引言

布隆过滤器:

  • 由二进制向量(或者说是 位数组)和一些列随机映射函数(hash函数)两部分组成的数据结构。

  • 相比于平时常用的 List , Map , Set 等数据结构,它占用的空间更少并且效率更高

  • 缺点是其返回的结果是概率性的,而不是非常准确的

  • 理论情况下,添加到集合中的元素越多,误报的可能性就越大。并且,存放在布隆过滤器的数据不容易删除。

原理

当一个元素加入布隆过滤器中的时候,会进行如下操作:

  1. 使用布隆过滤器中的 hash 函数对元素值进行计算,得到哈希值(有几个哈希函数得到几个哈希值)
  2. 根据得到的哈希值,在位数组中把对应下标的值置为1

当我们需要判断一个元素是否存在于布隆过滤器的时候,会进行如下操作:

  1. 对给定元素再次进行相同的哈希运算

  2. 得到值之后判断位数组中的每个元素是否都是1

    • 如果都是1,那么代表再布隆过滤器中存在该值
    • 只要存在一个0,就说明该元素不在布隆过滤器中

布隆过滤器的优缺点

优点:

  • 时间复杂度低,增加和查询元素的时间复杂为O(N),(N为哈希函数的个数,通常情况比较小)
  • 保密性强,布隆过滤器不存储元素本身
  • 存储空间小,如果允许存在一定的误判,布隆过滤器是非常节省空间的(相比其他数据结构如Set集合)

缺点:

  • 有点一定的误判率,但是可以通过调整参数来降低(为了减小误差可以加长位数组)
  • 无法获取元素本身
  • 很难删除元素

布隆过滤器的使用场景

布隆过滤器可以告诉我们 “某样东西一定不存在或者可能存在”,也就是说布隆过滤器说这个数不存在则一定不存,布隆过滤器说这个数存在可能不存在

  • 解决Redis缓存穿透问题
  • 邮件过滤,使用布隆过滤器来做邮件黑名单过滤
  • 对爬虫网址进行过滤,爬过的不再爬
  • 解决新闻推荐过的不再推荐(类似抖音刷过的往下滑动不再刷到)

加入布隆过滤器后的缓存处理流程:

加入布隆过滤器后的缓存处理流程

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值