布隆过滤器(Bloom Filter)

最新推荐文章于 2023-08-07 16:37:58 发布

Peeryer

最新推荐文章于 2023-08-07 16:37:58 发布

阅读量486

点赞数

分类专栏：区块链文章标签： hadoop hashmap 字符串算法

本文链接：https://blog.csdn.net/ym_1111/article/details/120276547

版权

布隆过滤器是一种利用概率原理，通过多个哈希函数快速判断元素是否可能存在于集合中的数据结构。它具有空间效率高、查询速度快的特点，但存在误判率。虽然无法确保元素一定不存在，但能避免假阴性。适用于大数据量场景，如缓存、垃圾邮件过滤等。布隆过滤器的主要优缺点包括误算率、空间效率和删除困难，常见于需要节省存储空间的场景。

摘要由CSDN通过智能技术生成

文章目录

概述
一、什么是布隆过滤器？
二、相关知识
- 1.False Position 和 False Negative
- 2.哈希（HASH）函数
三、原理分析
- 1.HashMap问题
- 2.布隆过滤器数据结构
四、总结
- 1.优点
- 2.缺点
五、使用场景
参考

概述

Data structures are nothing different. They are like the bookshelves of your application where you can organize your data. Different data structures will give you different facility and benefits. To properly use the power and accessibility of the data structures you need to know the trade-offs of using one.

一、什么是布隆过滤器？

布隆过滤器（Bloom Filter）是1970年由布隆提出的，它实际上是由一个很长的二进制向量和一系列随意映射函数组成。它是一种基于概率的数据结构，主要用来判断某个元素是否在集合内，它具有运行速度快（时间效率），占用内存小的优点（空间效率），但是有一定的误识别率和删除困难的问题。它能够告诉你某个元素一定不在集合内或可能在集合内。
本质上布隆过滤器是一种数据结构，比较巧妙的概率型数据结构（probabilistic data structure），特点是高效地插入和查询，可以用来告诉你 “某样东西一定不存在或者可能存在”。相比于传统的 List、Set、Map 等数据结构，它更高效、占用空间更少，但是缺点是其返回的结果是概率性的，而不是确切的。

二、相关知识

在计算机科学中，我们常常会碰到时间换空间或者空间换时间的情况，通常两者不可兼得，我们要在两者之间取舍。但是布隆过滤器在空间与时间效率上都很高。那么他是怎么做到的？因为Bloom Filter在时间空间这两个因素之外又引入了另一个因素：错误率。在使用Bloom Filter判断一个元素是否属于某个集合时，会有一定的错误率。也就是说，有可能把不属于这个集合的元素误认为属于这个集合（False Positive），