经典数据结构：对布隆过滤器、布谷鸟过滤器的理解

置顶 May Hacker

已于 2022-05-03 15:39:00 修改

阅读量787

点赞数 2

分类专栏： Redis 文章标签：数据结构 java redis

于 2021-01-11 16:07:06 首次发布

本文链接：https://blog.csdn.net/weixin_43889841/article/details/112472153

版权

18 篇文章 2 订阅

订阅专栏

布隆过滤器（Bloom Filter）是一种时间和空间上都比较高效的数据结构,它是1970年由布隆提出的。当然不是这个布隆：
在这里插入图片描述

它实际上是一个很长的二进制向量(位图)和一系列随机映射函数（哈希函数）。

布隆过滤器可以用于检索一个元素是否在一个集合中。

它的优点是空间效率和查询时间都远远超过一般的算法，缺点是有一定的误识别率和删除困难。

在学习数据结构时，应该都接触过哈希表，哈希表是通过哈希函数对数据进行映射，映射到对应存储地址，这种哈希表存储查找数据时间复杂度很低，为O(1)

事实上布隆过滤器，就是一个很长的二进制数组，存储0和1，默认初始全为0，并使用若干个哈希函数对数据进行映射，得到的若干地址，使这些地址对应值为1.

在这里插入图片描述
前面我们说过，布隆过滤器主要是用于检索一个元素是否在一个集合中，那是怎么判断的呢？

事实上，当判定数据A时，只需要进行映射，判断若干哈希函数映射出的若干哈希地址，对应值是否都为1，只有当全部为1时，才会判定该数据存在。

假设有K个哈希函数，那么查询该数据是否存在的时间复杂度为O(k)

为什么不直接用哈希表，事实上，布隆过滤器归根到底是哈希映射的思想，如果直接用哈希表，存储空间是吃不消的，因为用户假如有100w，那么直接放到哈希表是吃不消的，而布隆过滤器则可以利用有限的空间，来实现判断该数据是否存在于集合之中。

存在误判，可能要查到的元素并不存在，但是若干hash函数映射之后得到的k个位置上值都是1，按布隆过滤器的思想，就证明该数据存在，这就是误识的情况。

某一位被两个数据同时映射到，删除的时候不能简单的直接置为0，因为置为0后，可能将影响两个数据。

简单来说，布隆过滤器不支持反向删除，当过的元素多了，这些元素留下的“印迹”无法摸出，当误判率逐步变高的时候，不得不重建布隆过滤器。

例如在解决Redis缓存击穿上，布隆过滤器就大有用处，布隆过滤器可以看作是一层屏障，当不法请求带着id为-1的查询时，可先去布隆过滤器判断是否存在。

这时布隆过滤器体现的好处在于，一百万的数据，布隆过滤器仅需要很少的存储空间。

一个字节是8位，那么用一位来表示一个数，就可以很节省空间，10亿个数只需要125MB的内存。
在这里插入图片描述
例如对于53，与8相除得到 6.则数据的位图存储在数组元素 a[6] 中；再与8求余，得到5，则数据的位图存储在 a[6] 的第5位二进制上。

可以申请一个2^32大小的位图数组，而整数大小范围是0~2^32-1,故可以放得下。

例如40亿个数中存在4,7,1,5,9，那么在BitMap中可以这么放
在这里插入图片描述
之后判断对应下标是否为1，是1则代表出现过。

申请两个2^32大小的Bitmap：

第一步：遍历文件a，对每个url求取hash(url)%1000，然后根据所取得的值将url分别存储到1000个小文件(记为a0,a1,…,a999，每个小文件约300M)，为什么是1000？主要根据内存大小和要分治的文件大小来计算，我们就大致可以把298G大小分为1000份，每份大约300M（当然，到底能不能分布尽量均匀，得看hash函数的设计）
第二步：遍历文件b，采取和a相同的方式将url分别存储到1000个小文件(记为b0,b1,…,b999)（为什么要这样做?
文件a的hash映射和文件b的hash映射函数要保持一致，这样的话相同的url就会保存在对应的小文件中，比如，如果a中有一个url记录data1被hash到了a99文件中，那么如果b中也有相同url，则一定被hash到了b99中）
所以现在问题转换成了：找出1000对小文件中每一对相同的url（不对应的小文件不可能有相同的url）
第三步：对1000队小文件，设某一对数据分别为文件1和文件2，之后针对每个文件对：读取文件1，建立哈希表（为什么要建立hash表？因为方便后面的查找），然后再读取文件2，遍历文件b中每个url，对于每个遍历，我们都执行查找hash表的操作，若hash表中搜索到了，则说明两文件共有，存入一个集合。