布隆过滤器的推导

最新推荐文章于 2022-07-13 20:46:17 发布

spark man

最新推荐文章于 2022-07-13 20:46:17 发布

阅读量203

点赞数 1

分类专栏： java基础文章标签：数据结构算法 hash 布隆过滤器证明

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43810802/article/details/106758454

版权

java基础专栏收录该内容

27 篇文章 0 订阅

订阅专栏

bloom filter

- - intro
  - more general

intro

布隆过滤器是一种很有意思的数据结构，它的用途是检测某个元素是否在一个集合中。

首先，有一个数组，它的元素全部是0，然后共有m个坑：

我现在有一个集合 $S=\left\{ x,y,z \right\}$ ，对于每一个元素，通过3个hash函数，将其打到数组上，打中的位置设置为1。

比如 $x$ ，三次hash后，数组上就会有3个位置变为1(蓝色线条)。

至于hash函数，你可以认为它对 $x$ 做了处理，最后模上数组的长度得到一个下标。

注意，元素hash后可能打中同一个坑，这点不必惊奇。当m的值（也就是数组的长度)越来越大，这种情况的概率就会越来越小。

现在我来了一个 $w$ ，我要问： $w$ 在不在 $S$ 中？

将 $w$ 也三次hash一下：

如果有打中0的情形，那么，它肯定不在 $S$ 中。
如果打中的全部是1，那么它很有可能在 $S$ 中，也就是说，可以判定它在 $S$ 中，并带有一定的错误概率。

more general

我们的根本目的是减少错误概率。

现在考虑一般情况。

数组的长度为 $m$
集合为 $S=\left\{ x_1,x_2,\dots,x_n \right\}$ ，有 $n$ 个元素
hash函数有 $k$ 个： $h_1,h_2,\dots,h_k$ ， $\le h_i(x_j)\lt m(1 \le i \le k, 1 \le j \le n)$ ,换句话说，每个元素 $x_i$ 的每次hash的下标都落在数组内
hash函数产生的下标是等概率均匀分布的，不是说全部挤在前面或者某一个地方

好，现在我们考虑一个元素(比如 $x_1$ )的插入(占坑)。

经过一次hash后，某个坑为1的概率为：

$\frac{1}{m}$

某个坑为0的概率是：

$1-\frac{1}{m}$

$k$ 个hash函数过后，某个坑依旧为0的概率是：

$(1-\frac{1}{m})^k$

因为 $\lim\limits_{m\to+\infty}(1-\frac{1}{m})^{-m}=e$ ，所以

$\lim\limits_{m\to\infty}(1-\frac{1}{m})^k=\lim\limits_{m\to\infty}[(1-\frac{1}{m})^{-m}]^{-\frac{k}m{}}=e^{-\frac{k}{m}}$

我们会假设数组的长度 $m$ 无穷大，所以上面的式子是成立的。

完成了一个元素的插入后，现在我插入 $n$ 个元素。

$n$ 个元素插入后，某个坑依旧为0的概率是：

$e^{-\frac{nk}{m}}$

于是某个坑为1的概率是：

$1-e^{-\frac{nk}{m}}$

现在我来了一个元素 $y$ ， $y$ 并不在 $S$ 中。

$y$ 经过 $k$ 个hash函数后，全部打到了标记为1的坑，这个概率是：

$(1-e^{-\frac{nk}{m}})^k$

好了，我们找到了最终的函数。

目标：使 $f=(1-e^{-\frac{nk}{m}})^k$

最小。

$f=e^{\ln(1-e^{-\frac{nk}{m}})^k}=e^{k\ln(1-e^{-\frac{nk}{m}})}$

令
$g=k\ln(1-e^{-\frac{nk}{m}})$

问题转化为求 $g$ 的最小值。

$\frac{\partial g}{\partial k}=\ln(1-e^{-\frac{nk}{m}})+(\frac{1}{1-e^{-\frac{nk}{m}}})(-e^{-\frac{nk}{m}})(-\frac{n}{m})(k)$

令 $\frac{\partial g}{\partial k}=0$

同时，令

$e^{-\frac{nk}{m}}=p$

于是

$\frac{n}{m}=\frac{\ln p}{-k}$

那么

$\ln(1-p)+(\frac{1}{1-p})(p)(\frac{\ln p}{-k})(k)=\ln(1-p)-\frac{p}{1-p} \ln p=0$

整理一下：

$(1-p)\ln (1-p)=p \ln p$

得到

$p=\frac{1}{2}$

于是

$k=\frac{m}{n} \ln 2$

$k, m, n$ 满足 $k=\frac{m}{n} \ln 2$ 能够使得 $f$ 最小。

也就是说，如果数组长度比上元素个数为8的话( $\frac{m}{n}=8$ )，那么hash函数的个数最好有 $8\ln 2 \approx5.45$ 个(你可以取个整)。

这是一个令人愉快的结果。

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

spark man CSDN认证博客专家 CSDN认证企业博客

码龄6年

128: 原创

24万+: 周排名

215万+: 总排名

14万+: 访问

: 等级

2035: 积分

37: 粉丝

189: 获赞

30: 评论

259: 收藏

私信

关注

热门文章

分类专栏

爬虫 1篇
python 1篇
大数据 18篇
clickhouse
hbase 1篇
项目 2篇
spark 9篇
hadoop 7篇
k8s 1篇
dubbo 3篇
netflix_springcloud 3篇
计算机基础 3篇
netty 4篇
tomcat 1篇
java基础 27篇
linux 4篇
springboot 6篇
mybatis 6篇
spring 19篇
前端 2篇
redis 8篇
MySQL 6篇
数据分析 1篇
机器学习 10篇

最新评论

玩转单例模式
weixin_46316529: 能讲讲反射和类加载的过程吗
玩转单例模式
weixin_46316529: 太几把强了，不过有个疑惑，在双重检索创建单例的方式这块，既然创建对象不是原子性操作，那么即使防止指令重排序也可能出现重复的对象创建，比如在执行到分配内存地址时，其它的线程就可能进入了并开始创建对象了。另外枚举类的单例模式不太懂，我还得看看枚举类
spark对接elasticsearch遇到的坑
书香恋仁心: 解决了，应该就是jar包冲突的原因
mysql乐观锁实例
spark man: 其实就是希望某个时间段数据是稳定的，不能改，比如统计业务，某个时间点的统计；对账；还有数据迁移备份
spark对接elasticsearch遇到的坑
spark man: ClassNotFoundException一般都是版本问题吧

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。