布隆过滤器
题目:
假设不安全的网页黑名单包括100亿个黑名单网页,每个网页的URL最多占用64B。现在想实现一种网页过滤系统,利用该系统可以根据网页的URL判断该网页是否在黑名单上。
要求(1)允许万分之一以下的判断失误率。(2)使用额外空间不超过30GB
解答:
首先认识哈希函数(散列函数):
- 典型型的哈希函数都有无限的输入值域,有限的输出值域
- 当哈希函数传入相同的输入值时,返回值一样
- 给哈希函数传入不同的输入值时,返回值可能一样也可能不一样(因为输出域有限)
- 很多不同的输入值所得到的返回值会均匀分布
然后介绍下什么是布隆过滤器:
假设有一个长度为m的bit类型的数组,即数组中的每一个位置只占一个bit,也就是说每一个位置只有0/1两种状态。
0 | m-1 |
---|
再假设一共有k个哈希函数相互独立,这些函数的输出域都大于等于m,将这些URL作为k个哈希函数的输入对象(假设是字符串),对算出来的每一个结果对m取余(%m),然后在数组中将对应的位置设置为1,这样操作完100亿个URL后,数组已经有很多位置都变为了1。至此,一个布隆过滤器生成完毕。
过滤步骤
假设一个未知的URL,通过k个哈希函数算出k个哈希值,将这k个哈希值取余(%m),得到在[0,m-1]范围上k个值,在布隆过滤器中检查这k个位置是否为1,若都为1,则说明这个未知的URL在这个黑名单当中。所以,布隆过滤器会产生“宁可错杀三千,绝不放过一个”的误判。假设一个未知的URL在过滤阶段,因为布隆过滤器输入对象过多,或者m过小,导致绝大部分未知为1,则,可能误判为黑名单中的URL。