【Java面试】布隆过滤器是什么，使用需注意，附代码实例及说明

橘足轻重

已于 2023-03-06 20:36:46 修改

阅读量552

点赞数 1

分类专栏： java面试 Java基础项目开发文章标签：数据结构 java 面试 redis 缓存

于 2023-02-11 09:47:08 首次发布

本文链接：https://blog.csdn.net/weixin_44510587/article/details/128980286

版权

Java基础同时被 3 个专栏收录

15 篇文章 0 订阅

订阅专栏

项目开发

14 篇文章 0 订阅

订阅专栏

java面试

12 篇文章 1 订阅

订阅专栏

使用布隆过滤器需要注意什么

什么是布隆过滤器
- 使用布隆过滤器需要注意以下几点：
- - 使用布隆过滤器是如何预先判断请求数据是否存在，给出代码说明
  - 代码说明

什么是布隆过滤器

布隆过滤器（Bloom Filter）是一种空间效率很高的判重数据结构，它的作用是用于快速判断一个元素是否在一个集合中，它通常被用于去重、过滤垃圾数据等场景。布隆过滤器是一个很长的二进制位数组和一组哈希函数。当要判断一个元素是否在集合中时，首先通过哈希函数对该元素进行哈希，然后再根据哈希结果去检查二进制位数组上的对应位置是否为1。

布隆过滤器有一个误判率，即在一个元素不在集合中的情况下，布隆过滤器可能会认为该元素在集合中，因此布隆过滤器并不是一个百分之百正确的判重数据结构。但是，它在空间效率和时间效率上都优于其他数据结构，因此布隆过滤器在许多实际应用中都得到了广泛的使用。

使用布隆过滤器需要注意以下几点：

准确性：布隆过滤器本质上是一个把所有元素hash后再存储在一个大的位数组里面的过滤器，因此布隆过滤器可能会出现误判的情况。
空间复杂度：布隆过滤器需要预先分配一定的内存空间，才能完成过滤任务，因此需要设置一个合适的误判率，以限制内存空间的消耗。
哈希函数选择：布隆过滤器需要使用多个哈希函数来完成过滤任务，因此选择一组高效且不重复的哈希函数非常重要。
容量限制：布隆过滤器有一个容量限制，即它只能容纳有限的元素，因此在使用布隆过滤器时，需要注意它的容量限制。
并发操作：布隆过滤器是一个线程不安全的数据结构，因此在多线程环境下使用时，需要注意线程同步问题。

以上是使用布隆过滤器时需要注意的几点，如果没有考虑到以上几点，可能会导致布隆过滤器在实际应用中的效果不佳。

使用布隆过滤器是如何预先判断请求数据是否存在，给出代码说明

下面是一个使用布隆过滤器的代码例子：

import java.util.BitSet;

public class BloomFilter {
    private static final int DEFAULT_SIZE = 2 << 24;
    private static final int[] seeds = new int[]{3, 5, 7, 11, 13, 31, 37, 61};
    private BitSet bits = new BitSet(DEFAULT_SIZE);
    private SimpleHash[] func = new SimpleHash[seeds.length];

    public BloomFilter() {
        for (int i = 0; i < seeds.length; i++) {
            func[i] = new SimpleHash(DEFAULT_SIZE, seeds[i]);
        }
    }

    public void add(String value) {
        for (SimpleHash f : func) {
            bits.set(f.hash(value), true);
        }
    }

    public boolean contains(String value) {
        if (value == null) {
            return false;
        }

        boolean ret = true;
        for (SimpleHash f : func) {
            ret = ret && bits.get(f.hash(value));
        }
        return ret;
    }

    public static class SimpleHash {
        private int cap;
        private int seed;

        public SimpleHash(int cap, int seed) {
            this.cap = cap;
            this.seed = seed;
        }

        public int hash(String value) {
            int result = 0;
            int len = value.length();
            for (int i = 0; i < len; i++) {
                result = seed * result + value.charAt(i);
            }
            return (cap - 1) & result;
        }
    }
}

代码说明

该代码实现了一个布隆过滤器，可以通过 add() 方法将数据存入布隆过滤器，通过 contains() 方法快速判断数据是否在布隆过滤器中。在 contains() 方法中，会对该请求数据使用多个哈希函数进行哈希，然后在布隆过滤器的 bits 中检查是否有对应的位置为1，如果都为1，则该请求数据存在，否则该请求数据不存在。这样就可以预先判断请求数据是否存在，从而避免访问慢的数据库或者其他存储介质。布隆过滤器通过预先将数据存储到一个比较快的存储介质中，比如内存，可以高效地判断请求数据是否存在，而不需要访问比较慢的数据库或者其他存储介质。

通过使用布隆过滤器，可以大大降低系统的响应时间，并有效地避免缓存雪崩。

如有错误，还请多多指教！
转载或者引用本文内容请注明来源及原作者：橘足轻重；