bloom filter 理解

最新推荐文章于 2023-12-30 16:04:29 发布

znsoft

最新推荐文章于 2023-12-30 16:04:29 发布

阅读量252

点赞数

文章标签： pytorch 深度学习 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/znsoft/article/details/111659842

版权

Bloom filter是一种特殊算法。通常的算法是在时间和空间之间权衡：时间换空间或空间换时间。

Bloom filter是一种用可接受的错误率换时间和空间的作法：用一定错误率的代价来解决时间和空间的占用问题（同时解决时空问题）。

动态演示： Bloom Filters by Example

说再多不如来个演示，上面的网址可以进行动态演示，立即了然。

简单描述下算法原理：

对给定的数据： A B C D E F ，这六个数据。

我们选择 3个不同的hash函数，这三个hash函数的映射范围为 m (槽位数，bitmap的容量）,开一个m bits的空间，每个bit代表一个位置。这个hash函数其实就是hash表的hash函数。同一个数据经过这三个hash函数后会得到3个不同的值代表bitmap中三个不同的位置。

对6个数据中的每个数据都使用这个三个hash函数分别计算，每个数据得到三个hash函数后的bitmap槽位位置，对这些槽位标记为1。总共可以得到18个位置，这些位置有重叠的，不用管它，只需要对这些槽位进行标记为1.

在上面的这步中，实际上标记的槽位可能只有10个（有重复的位置）

验证某个数据是否在这6个中：对需要测试的数据分别用这个三hash函数进行计算，得到3个位置，对bitmap中的对应位置进行检查，如果这三个位置都是1, 说明这个数据很大可能在这6个数据之中（也有可能不在）。如果算出来的bit位置在bitmap中有为0的，它肯定不在这6个数之中。

具体看上面网址的演示。

助记：这里的hash函数和普通的hash函数(如md5,sha1/sha2)不一样，本质上是hash表中的计算位置用的hash函数。

Bloom Filter的缺点

bloom filter之所以能做到在时间和空间上的效率比较高，是因为牺牲了判断的准确率、删除的便利性

存在误判，可能要查到的元素并没有在容器中，但是hash之后得到的k个位置上值都是1。如果bloom filter中存储的是黑名单，那么可以通过建立一个白名单来存储可能会误判的元素。

删除困难。一个放入容器的元素映射到bit数组的k个位置上是1，删除的时候不能简单的直接置为0，可能会影响其他元素的判断。可以采用Counting Bloom Filter ,本质上是对hashmap中的bit加上计数器，删除时减一，添加时加一。

参数选择

对于一个确定的场景，我们预估要存的数据量为n，期望的误判率为fpp，然后需要计算我们需要的Bit数组的大小m，以及hash函数的个数k，并选择hash函数

1)Bit数组大小选择

　　根据预估数据量n以及误判率fpp，bit数组大小的m的计算方式：

(2)哈希函数选择

由预估数据量n以及bit数组长度m，可以得到一个hash函数的个数k：

哈希函数的选择对性能的影响应该是很大的，一个好的哈希函数要能近似等概率的将字符串映射到各个Bit。选择k个不同的哈希函数比较麻烦，一种简单的方法是选择一个哈希函数，然后送入k个不同的参数。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。