布隆过滤器-----时间+空间

最新推荐文章于 2023-08-07 16:37:58 发布

_从未止步

最新推荐文章于 2023-08-07 16:37:58 发布

阅读量1.1k

点赞数

分类专栏：我的一些小研究文章标签：哈希 bitmap 布隆过滤器高效查找+高效空间

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zr1076311296/article/details/51395385

版权

布隆过滤器结合了哈希表的快速查找和位图的高效空间利用，通过多个哈希函数降低冲突，用于判断元素可能的存在状态。在处理大数据时，例如谷歌用于屏蔽骚扰邮箱，它能节省大量存储空间。然而，随着置为1的位增多，错误率也会增加，使用时需考虑空间与误判的平衡。

摘要由CSDN通过智能技术生成

最近在研究哈希表，写了闭散列和开散列的代码，哈希表的查找效率确实比较高，但是我发现哈希表的空间效率却有点低，一个好点的哈希表估计能达到50%的空间利用率吧。

我们知道STl中有一种数据结构叫做 bitset 个人觉得叫 bitmap 会更形象一点（这里不去关系这个了），位图是具有很高的空间效率的数据结构，在处理有些大数据的时候能够发挥出很大的作用。

看到这里应该懂我了吧，既然一个时间快，一个节约空间，那么你们在一起吧----------这就是布隆过滤器！一种时间和空间都比较高效的数据结构。布隆过滤器的设计原理是：使用 k 个哈希函数对同一个key进行定址，在bitmap中将各个哈希函数产生的index都置为1，这样就大大降低了哈希冲突（哈希冲突是不能完全避免的），此话怎讲呢？当我们去查找一个key是否存在的时候，也是通过使用一系列的哈希函数产生index，查看该index对应的位图位置是否为1，来判断该key是否出现过。结论如下：

1.若有哈希函数产生的 index 对应的位置不为 1 ，则说明该 key 没有出现过

2.若所有哈希函数产生的 index 对应的位置都为 1，我们可以推测该 key 有很大的概率出现过，因为哈希函数产出的 index 有一定的错误率的

布隆过滤器的应用还是比较广泛的，比如谷歌就使用到了布隆过滤来屏蔽骚扰邮箱，因为光光靠哈下表不能满足需求，举例说明一下吧，十亿个邮箱的URL所需要的存储空间大约16G吧，这么大的内存一般计算机是不能达到的，而使用布隆过滤器就能很好的解决问题了。不过布隆过滤器还是有缺点的，就是当bitmap中被置为1的位的个数接近总数目的时候，就容易产生错误，所以使用的时候要估计一下空间问题。

我实现了一个简单的布隆过滤器，用来判断string是否出现在其中，我使用了5个哈希函数来产生index，这些哈希函数都是一些经过测试的比较高效的字符哈希函数，我的项目结构如下：

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
布隆过滤器-----时间+空间

最近在研究哈希表，写了闭散列和开散列的代码，哈希表的查找效率确实比较高，但是我发现哈希表的空间效率却有点低，一个好点的哈希表估计能达到50%的空间利用率吧。我们知道STl中有一种数据结构叫做 bitset 个人觉得叫 bitmap 会更形象一点（这里不去关系这个了），位图是具有很高的空间效率的数据结构，在处理有些大数据的时候能够发挥出很大的作用。看到这里应该懂我了吧，既
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。