布隆过滤器

最新推荐文章于 2024-08-31 15:48:32 发布

forever蔷薇

最新推荐文章于 2024-08-31 15:48:32 发布

阅读量644

点赞数 7

文章标签：哈希算法算法 redis java

本文链接：https://blog.csdn.net/weixin_51429644/article/details/139477214

版权

布隆过滤器（Bloom Filter）

布隆过滤器是一种高效的概率型数据结构，用于判断一个元素是否可能存在于集合中。它由布隆在1970年提出，具有很高的空间效率和查询速度。

基本原理

布隆过滤器使用多个哈希函数和一个位数组来实现。它能快速地判断一个元素是否存在于集合中，但存在一定的误判率，即可能会误认为某个不存在的元素存在于集合中（假阳性），但绝不会误判一个存在的元素不存在（假阴性）。

工作原理

初始化:
- 初始化一个位数组，所有位都设置为0。
- 选择 k 个独立的哈希函数，每个函数将输入映射到位数组的一个位置上。
插入元素:
- 对每个要插入的元素，使用 k 个哈希函数计算该元素的哈希值，并将这些哈希值对应的位数组位置设置为1。
查询元素:
- 对要查询的元素，使用相同的 k 个哈希函数计算哈希值，如果所有哈希值对应的位数组位置都是1，则认为该元素可能存在于集合中；否则，认为该元素肯定不存在。

插入与查询示例

假设我们有一个布隆过滤器，位数组长度为10，使用3个哈希函数。

初始化:
```
位数组: 0 0 0 0 0 0 0 0 0 0
```
插入元素 “A”:
- 假设哈希函数返回的位置分别是 1, 4, 7。
```
位数组: 0 1 0 0 1 0 0 1 0 0
```
插入元素 “B”:
- 假设哈希函数返回的位置分别是 2, 5, 8。
```
位数组: 0 1 1 0 1 1 0 1 1 0
```
查询元素 “A”:
- 哈希函数返回的位置是 1, 4, 7，检查这些位置的值均为1，因此 “A” 可能存在。
查询元素 “C”:
- 假设哈希函数返回的位置是 1, 3, 6，发现位置 3 的值为0，因此 “C” 不存在。

特性

空间效率高: 布隆过滤器在空间使用上非常高效，尤其适合处理大量数据的场景。
时间效率高: 插入和查询操作都非常快速，时间复杂度为 O(k)。
存在假阳性: 布隆过滤器可能会误判元素存在（假阳性），但不会误判元素不存在（假阴性）。
不可删除元素: 一旦插入元素，布隆过滤器无法直接删除元素，因为多个元素可能共享同一位，删除会导致误删除。

应用场景

网络爬虫: 判断URL是否已访问过，防止重复抓取。
垃圾邮件过滤: 快速判断邮件地址是否在黑名单中。
数据库查询优化: 在进行数据库查询前，先用布隆过滤器判断数据是否可能存在，以减少不必要的查询。
缓存穿透防护: 在分布式缓存系统中使用布隆过滤器，快速判断请求的键是否存在于缓存中，减少对数据库的访问。

代码示例

以下是一个简单的Java实现示例，展示如何使用 Redisson 的布隆过滤器：


import org.redisson.Redisson;
import org.redisson.api.RBloomFilter;
import org.redisson.api.RedissonClient;
import org.redisson.config.Config;

public class BloomFilterExample {
    public static void main(String[] args) {
        // 创建Redisson客户端
        Config config = new Config();
        config.useSingleServer().setAddress("redis://127.0.0.1:6379");
        RedissonClient redissonClient = Redisson.create(config);

        // 创建布隆过滤器
        RBloomFilter<String> bloomFilter = redissonClient.getBloomFilter("sampleBloomFilter");
        // 初始化布隆过滤器，预计插入1000个元素，误判率为0.01
        bloomFilter.tryInit(1000, 0.01);

        // 添加元素到布隆过滤器
        bloomFilter.add("foo");
        bloomFilter.add("bar");

        // 检查元素是否存在
        System.out.println(bloomFilter.contains("foo")); // true
        System.out.println(bloomFilter.contains("baz")); // false

        // 关闭Redisson客户端
        redissonClient.shutdown();
    }
}

代码解释

初始化 Redisson 客户端:
- 配置 Redis 服务器地址，并创建 Redisson 客户端实例。
创建布隆过滤器:
- 使用 Redisson 客户端创建或获取一个布隆过滤器实例。
- 使用 tryInit 方法初始化布隆过滤器，设置预计插入的元素数量和误判率。
添加元素:
- 使用 add 方法将元素添加到布隆过滤器中。
检查元素:
- 使用 contains 方法检查元素是否存在于布隆过滤器中。
关闭 Redisson 客户端:
- 关闭 Redisson 客户端，释放资源。