通过题目解释布隆过滤器

布隆过滤器

题目:

假设不安全的网页黑名单包括100亿个黑名单网页,每个网页的URL最多占用64B。现在想实现一种网页过滤系统,利用该系统可以根据网页的URL判断该网页是否在黑名单上。
要求(1)允许万分之一以下的判断失误率。(2)使用额外空间不超过30GB

解答:

首先认识哈希函数(散列函数):
  1. 典型型的哈希函数都有无限的输入值域,有限的输出值域
  2. 当哈希函数传入相同的输入值时,返回值一样
  3. 给哈希函数传入不同的输入值时,返回值可能一样也可能不一样(因为输出域有限)
  4. 很多不同的输入值所得到的返回值会均匀分布
然后介绍下什么是布隆过滤器:

假设有一个长度为m的bit类型的数组,即数组中的每一个位置只占一个bit,也就是说每一个位置只有0/1两种状态。

0m-1

再假设一共有k个哈希函数相互独立,这些函数的输出域都大于等于m,将这些URL作为k个哈希函数的输入对象(假设是字符串),对算出来的每一个结果对m取余(%m),然后在数组中将对应的位置设置为1,这样操作完100亿个URL后,数组已经有很多位置都变为了1。至此,一个布隆过滤器生成完毕。

过滤步骤

假设一个未知的URL,通过k个哈希函数算出k个哈希值,将这k个哈希值取余(%m),得到在[0,m-1]范围上k个值,在布隆过滤器中检查这k个位置是否为1,若都为1,则说明这个未知的URL在这个黑名单当中。所以,布隆过滤器会产生“宁可错杀三千,绝不放过一个”的误判。假设一个未知的URL在过滤阶段,因为布隆过滤器输入对象过多,或者m过小,导致绝大部分未知为1,则,可能误判为黑名单中的URL。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值