Bloom filter是一种特殊算法。通常的算法是在时间和空间之间权衡:时间换空间或空间换时间。
Bloom filter是一种用可接受的错误率换时间和空间的作法:用一定错误率的代价来解决时间和空间的占用问题(同时解决时空问题)。
动态演示: Bloom Filters by Example
说再多不如来个演示,上面的网址可以进行动态演示,立即 了然。
简单描述下算法原理:
对给定的数据: A B C D E F ,这六个数据。
我们选择 3个不同的hash函数,这三个hash函数 的映射 范围为 m (槽位数,bitmap的容量),开一个m bits的空间,每个bit代表一个位置。这个hash函数其实就是hash表的hash函数。同一个数据经过这三个hash函数后会得到3个不同的值代表bitmap中三个不同的位置。
对6个数据中的每个数据都使用这个三个hash函数分别计算,每个数据得到三个hash函数后的bitmap槽位位置,对这些槽位标记为1。 总共可以得到18个位置,这些位置有重叠的,不用管它,只需要对这些槽位进行标记为1.
在上面的这步中,实际上标记的槽位可能只有10个(有重复的位置)
验证某个数据是否在这6个中: 对需要测试的数据分别用这个三hash函数进行计算,得到3个位置,对bitmap中的对应位置进行检查,如果这三个位置都是1, 说明这个数据很大可能在这6个数据之中(也有可能不在)。如果算出来的bit位置在bitmap中有为0的,它肯定不在这6个数之中。
具体看上面网址的演示。
助记: 这里的hash函数和普通的hash函数(如md5,sha1/sha2)不一样,本质上是hash表中的计算位置用的hash函数。
Bloom Filter的缺点
bloom filter之所以能做到在时间和空间上的效率比较高,是因为牺牲了判断的准确率、删除的便利性
- 存在误判,可能要查到的元素并没有在容器中,但是hash之后得到的k个位置上值都是1。如果bloom filter中存储的是黑名单,那么可以通过建立一个白名单来存储可能会误判的元素。
- 删除困难。一个放入容器的元素映射到bit数组的k个位置上是1,删除的时候不能简单的直接置为0,可能会影响其他元素的判断。可以采用Counting Bloom Filter ,本质上是对hashmap中的bit加上计数器,删除时减一,添加时加一。
参数选择
对于一个确定的场景,我们预估要存的数据量为n,期望的误判率为fpp,然后需要计算我们需要的Bit数组的大小m,以及hash函数的个数k,并选择hash函数
1)Bit数组大小选择
根据预估数据量n以及误判率fpp,bit数组大小的m的计算方式:
(2)哈希函数选择
由预估数据量n以及bit数组长度m,可以得到一个hash函数的个数k:
哈希函数的选择对性能的影响应该是很大的,一个好的哈希函数要能近似等概率的将字符串映射到各个Bit。选择k个不同的哈希函数比较麻烦,一种简单的方法是选择一个哈希函数,然后送入k个不同的参数。