Bloom Filter（布隆过滤器）

最新推荐文章于 2024-06-14 16:38:04 发布

牧师家的猫

最新推荐文章于 2024-06-14 16:38:04 发布

阅读量388

点赞数

分类专栏：数据结构与算法文章标签：数据结构算法

本文链接：https://blog.csdn.net/zpnuaa107/article/details/103771013

版权

Bloom Filter是一种用于海量数据查询过滤的算法，具有空间效率高、时间复杂度为O(1)的优点，但存在False Positive的误算率。其基本原理是使用多个哈希函数将元素映射到位数组中。适用于分布式数据库、文档存储检查、浏览器安全浏览服务等多种场景。误算率随着元素增加而提高，无法删除元素。

摘要由CSDN通过智能技术生成

Bloom Filter（布隆过滤器）

简介

Bloom Filter是一种海量数据的查询过滤算法。若要判断一个集合是否包含某个元素，小数据量场景下可以简单的使用遍历比较；海量数据场景下，不考虑空间效率可以直接使用Bitmap来进行判断；若要考虑空间效率，Burton Bloom在1970年提出了Bloom Filter算法，其时间复杂度是O(1)。Bloom Filter算法不能保证100%正确，所以不适合那些“零错误”的应用场合。

基本原理

使用k个hash算法（SHA1,SHA256,MD5等）将一个集合元素映射到i个二进制位数组中的某一位(0<i≤k)。如果i个位已经被置为1，那么表示该元素已经存在。为了减少hash冲突问题，所以引用了多个哈希函数，如果通过其中的一个hash值得出某元素不在集合中，那么该元素肯定不在集合中。只有所有的hash函数表明该元素在集合中时，才能确定该元素存在于集合中

首先表示集合的数据结构，Bloom-Filter中使用的是一个二进制数组（位数组）

假设Bloom Filter使用一个m位的数组来保存信息。初始状态时Bloom Filter是一个包含m位的位数组，每一位都置为0
如果现在有一个集合S={x1, x2,…,xn}，包含n个元素。现在需要k个hash函数对n个元素进行计算并映射到位数组中。这个计算k的公式为：k = ln2· (m/n)

其中m是数组长度，n是元素个数，k是hash函数个数

当往Bloom Filter中增加任意一个元素x时候，使用k个哈希函数得到k个哈希值，然后将数组中对应的比特位设置为1。即第i个哈希函数映射的位置hashi(x)就会被置为1（1≤i≤k）。注意，如果一个位置多次被置为1，那么只有第一次会起作用，后面几次将没有任何效果。在下图中，k=3，且有两个哈希函数选中同一个位置（从左边数第五位，即第二个“1“处）。
现在就可以判断一个元素是否在这个集合中了，比如判断y是否在这个集合中，只需要对y使用k个哈希函数得到k个哈希值，如果所有hashi(y)的位置都是1（1≤i≤k），即k个位置都被设置为1了，那么就认为y是集合中的元素，否则就认为y不是集合中的元素。下图中y1就不是集合中的元素（因为y1有一处指向了“0”位）。y2属于这个集合，或者刚好是一个false positive。

实现方式

对于预设数据规模为n，期望误判率为f的场景下：

位数组大小m的选取计算方式：

最低0.47元/天解锁文章

牧师家的猫

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Bloom Filter（布隆过滤器）

Bloom Filter是一种海量数据的查询过滤算法。若要判断一个集合是否包含某个元素，小数据量场景下可以简单的使用遍历比较；海量数据场景下，不考虑空间效率可以直接使用Bitmap来进行判断；若要考虑空间效率，Burton Bloom在1970年提出了Bloom Filter算法，其时间复杂度是O(1)。Bloom Filter算法不能保证100%正确，所以不适合那些“零错误”的应用场合。
复制链接

扫一扫