布隆过滤器原理概述

本文介绍了布隆过滤器作为一种概率型数据结构,用于快速判断元素是否在集合中,尤其适用于大数据场景。它利用多个哈希函数降低冲突,具有空间效率高、插入/查询速度快等优点,但存在误报率和无法删除元素的局限。主要应用场景包括网页去重、垃圾邮件识别和缓存优化。
摘要由CSDN通过智能技术生成

布隆过滤器原理

1.讨论场景

假如需要过滤某些不安全网页,现有100亿个黑名单页面,每个网页的URL最多占用64字节。现要设计一种网页过滤系统,可以根据网页的URL判断该网页是否在黑名单上,要求该系统允许有万分之一以下的判断错误率,并且使用的额外空间不要超过30 G。

方案一(MySQL):

将访问过的URL都保存到数据库中,每次过滤网页就进行一次select查询

随着数据量增大,效率非常低

方案二(HashSet):

将访问过的URL存入HashSet中,时间复杂度o(1),效率很高,但是数据量大会十分消耗内存

方案三(加密后保存):

方案二和方案三的优化,现将URL利用MD5或SHA-1散列处理之后再进行保存,可以优化好几倍内存

方案四(BitMap):

将每个URL经过一个哈希函数映射到某一位.可以极大程度减少内存消耗,但是缺点就是单一哈希函数发生冲突的概率太高了

概述

Bloom Filter(布隆过滤器)是一种多哈希函数映射的快速查找算法。它是一种空间高效的概率型数据结构,通常应用在一些需要快速判断某个元素是否属于集合,但是并不严格要求100%正确的场合。

布隆过滤器的优势在于,利用很少的空间可以做到精确率较高。

哈希表与布隆过滤器:

哈希表也能用于判断元素是否在集合中,但是Bloom Filter只需要哈希表的1/8或1/4的空间复杂度就能完成同样的问题。Bloom Filter可以插入元素,但是不可以删除已有元素。集合中的元素越多,误报率越大,但是不会漏报。

原理

如果想判断一个元素是不是在一个集合中,一般想到的方法是暂存数据,然后查找判定是否存在集合中。这种方法在数据量比较小的情况下适用,但是几个中元素较多的时候,检索速度就会越来越慢。

可以利用Bitmap:只要检查对应点是不是1就可以知道集合中有没有这个数。Bloom filter可以看做是对bitmap的扩展。只是使用多个hash映射函数,从而减低hash发生冲突的概率。

算法如下:

img

布隆过滤器

1、创建m(m=28)位的bitset,初始化为0,选中k(k=3)个不同的哈希函数;

2、第 i 个hash函数对字符串str哈希的结果记为 h(i,str),范围是(0,m-1);

3、将字符串记录到bitset的过程(即插入):对于一个字符串str,分别记录h(1,str),h(2,str)…,h(k,str),然后将bitset的h(1,str),h(2,str)…,h(k,str)位置1,也就是将一个a映射到bitset的k个二进制位;

4、检查字符串是否存在(即查找):对于字符串”str”,分别计算h(1,str)、h(2,str),…,h(k,str),然后检查bitset的第h(1,str),h(2,str),…,h(k,str) 位是否为1:

若其中任何一位不为1则可以判定str一定没有被记录过;

若全部位都是1,则“认为”字符串str存在;

但是若一个字符串对应的Bit全为1,实际上是不能100%的肯定该字符串被Bloom Filter记录过的(因为有可能该字符串的所有位都刚好是被其他字符串所对应)这种将该字符串划分错的情况,称为false positive ;

5、删除字符串(删除):字符串加入了就被不能删除了,因为删除会影响到其他字符串。

Bloom Filter使用了k个哈希函数,每个字符串跟k个bit对应。从而降低了冲突的概率。

优点

布隆过滤器相比较于传统数组、链表等数据结构,在空间和时间方面都有巨大的优势。

速度快,布隆过滤器插入/查询时间都是常数O(k)。

各个散列函数相互之间没有关系,方便由硬件并行实现。

布隆过滤器不需要存储元素本身,只是存储其存在与否的标志位,在某些对保密要求非常严格的场合有优势。

缺点

误算率是其中之一。随着存入的元素数量增加,误算率随之增加。

一般情况下不能从布隆过滤器中删除元素,如果需要删除,操作耗时且复杂。

应用场景

布隆过滤器的用处就是,能够在节省存储空间的情况下迅速判断一个元素是否在一个集合中。主要有如下三个使用场景:

1、网页爬虫对URL的去重,避免爬取相同的URL地址;

2、反垃圾邮件,从数十亿个垃圾邮件列表中判断某邮箱是否垃圾邮箱;

3、缓存击穿,将已存在的缓存放到布隆过滤器中,当黑客访问不存在的缓存时迅速返回避免缓存及DB挂掉。

  • 18
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值