布隆过滤器
一个黑名单,优点占用空间少,缺点存在失误率。
已经进入黑名单的查询时肯定不会出错,未加入过滤器的可能会报存在
8bit = 1Byte
位图
布隆过滤器是一个大位图,
过程:
- URL经过k个hash函数得到值mol位图大小m
- 把所有得到的位置都“描黑”
- 新的值加入的时候 若所有的值都是 ”黑“ 则已存在黑名单里
(可能有误的地方)
实际面试题
前两个公式一旦发生小数都是向上取整
所以用上面这个公式来求真实的容错率,需要的是真实容错率小于真实的容错率就对了。
所以说一旦有人问你,一个和黑名单有关的问题,并且给你的空间和实际需要的空间差的很大,你多问一句允不允许有失误率。一听就知道你你是内行,上道了。
hash函数的实现:a+i*b
通过一个hash函数得到a 另一个得到b , 用ab设计出来k个hash值
- a+1*b
- a+2*b
- a+3*b
- …等
位图大小和失误率的关系
失误率不可能未为0