通过题目解释布隆过滤器

最新推荐文章于 2022-08-31 17:27:22 发布

追求大牛之人

最新推荐文章于 2022-08-31 17:27:22 发布

阅读量4.5k

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43895254/article/details/111004649

版权

布隆过滤器

题目：

假设不安全的网页黑名单包括100亿个黑名单网页，每个网页的URL最多占用64B。现在想实现一种网页过滤系统，利用该系统可以根据网页的URL判断该网页是否在黑名单上。
要求（1）允许万分之一以下的判断失误率。（2）使用额外空间不超过30GB

解答：

首先认识哈希函数（散列函数）：

典型型的哈希函数都有无限的输入值域，有限的输出值域
当哈希函数传入相同的输入值时，返回值一样
给哈希函数传入不同的输入值时，返回值可能一样也可能不一样（因为输出域有限）
很多不同的输入值所得到的返回值会均匀分布

然后介绍下什么是布隆过滤器：

假设有一个长度为m的bit类型的数组，即数组中的每一个位置只占一个bit，也就是说每一个位置只有0/1两种状态。

0									m-1

再假设一共有k个哈希函数相互独立，这些函数的输出域都大于等于m，将这些URL作为k个哈希函数的输入对象（假设是字符串），对算出来的每一个结果对m取余（%m），然后在数组中将对应的位置设置为1，这样操作完100亿个URL后，数组已经有很多位置都变为了1。至此，一个布隆过滤器生成完毕。

过滤步骤

假设一个未知的URL，通过k个哈希函数算出k个哈希值，将这k个哈希值取余（%m），得到在[0,m-1]范围上k个值，在布隆过滤器中检查这k个位置是否为1，若都为1，则说明这个未知的URL在这个黑名单当中。所以，布隆过滤器会产生“宁可错杀三千，绝不放过一个”的误判。假设一个未知的URL在过滤阶段，因为布隆过滤器输入对象过多，或者m过小，导致绝大部分未知为1，则，可能误判为黑名单中的URL。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。