算法学习笔记：布隆过滤器详解（示例：Go）

风不归Alkaid

于 2024-07-04 10:48:25 发布

阅读量771

点赞数 10

分类专栏：算法学习笔记文章标签：算法学习笔记

本文链接：https://blog.csdn.net/weixin_49015143/article/details/140173146

版权

算法学习笔记专栏收录该内容

3 篇文章 0 订阅

订阅专栏

布隆过滤器（Bloom Filter）是一种空间效率非常高的数据结构，用于快速判断一个元素是否在一个集合中。
布隆过滤器的主要特点是允许一定程度的误判（即可能会误认为某个元素在集合中），但绝不会漏判（即不会错过某个真正存在的元素）。

1.布隆过滤器的原理

布隆过滤器由一个位数组（bit array）和多个哈希函数（hash functions）组成。假设我们有一个长度为 $m$ 的位数组和 $k$ 个不同的哈希函数。每个哈希函数将输入映射到位数组的一个位置。

插入元素

对于要插入的每个元素，用 $k$ 个哈希函数分别计算它们的哈希值。
将位数组中对应哈希值的位置设为1。

查询元素

对于要查询的元素，同样用 $k$ 个哈希函数分别计算它们的哈希值。
检查位数组中对应哈希值的位置。如果所有这些位置的值都为1，则判断该元素可能在集合中；如果有任意一个位置的值为0，则可以确定该元素不在集合中。

布隆过滤器中的位数组和哈希函数是其核心组成部分，它们共同工作以提供快速且空间效率高的元素查找功能。下面详细解释它们各自的作用：

2.位数组（Bit Array）是什么？

位数组是一个由多个二进制位（0或1）组成的数组。在布隆过滤器中，位数组的大小决定了能够存储的信息量以及误判率的概率。位数组的主要功能是记录元素的存在信息：

初始化：初始时，位数组中的所有位都设置为0。
插入操作：当一个元素被插入到布隆过滤器中时，该元素会被哈希函数处理，每个哈希函数会根据元素内容生成一个数组索引，位数组在这些索引位置上的位将被设为1。
查询操作：当查询一个元素是否存在于布隆过滤器中时，同样通过哈希函数计算索引，然后检查位数组在这些索引位置上的位是否都为1。如果都是1，那么元素可能存在；如果任何一个位为0，则该元素肯定不在过滤器中。

3.哈希函数（Hash Functions）是什么？

哈希函数用于将输入的元素映射到位数组的一个或多个位置。哈希函数的选择对布隆过滤器的性能和误判率有很大影响：

映射功能：哈希函数根据输入元素生成一个固定范围内的随机数值，这个值将作为位数组的索引。
分布性：理想的哈希函数应该保证输出值均匀分布，这样可以最大限度地减少不同元素的哈希值碰撞（即多个元素映射到同一位置），从而降低误判率。
独立性：布隆过滤器通常使用多个哈希函数，这些哈希函数应相互独立，确保每个函数的输出不会互相影响。

位数组用来实际存储元素的存在状态，而哈希函数则是决定元素在位数组中如何存储的“桥梁”。
正确的哈希函数设计和位数组大小选择是优化布隆过滤器性能和准确度的关键。

4.Go代码示例

假设我们有一个长度为10的位数组和3个哈希函数。要插入元素“apple”和“orange”，我们会依次计算这两个元素的哈希值，并将对应位置的位设为1。

package main

import (
    "crypto/sha256"
    "fmt"
)

type BloomFilter struct {
    bitArray []bool
    size     int
    k        int
}

// 创建一个布隆过滤器
func NewBloomFilter(size int, k int) *BloomFilter {
    return &BloomFilter{
        bitArray: make([]bool, size),
        size:     size,
        k:        k,
    }
}

// 简单的哈希函数实现
func hash(data string, seed int) int {
    h := sha256.New()
    h.Write([]byte(fmt.Sprintf("%s%d", data, seed)))
    hash := h.Sum(nil)
    return int(hash[0]) % 256
}

// 插入元素
func (bf *BloomFilter) Insert(data string) {
    for i := 0; i < bf.k; i++ {
        index := hash(data, i) % bf.size
        bf.bitArray[index] = true
    }
}

// 查询元素
func (bf *BloomFilter) Query(data string) bool {
    for i := 0; i < bf.k; i++ {
        index := hash(data, i) % bf.size
        if !bf.bitArray[index] {
            return false
        }
    }
    return true
}

func main() {
    // 创建一个布隆过滤器，长度为1000，使用3个哈希函数
    bf := NewBloomFilter(1000, 3)

    // 插入元素
    bf.Insert("apple")
    bf.Insert("orange")

    // 查询元素
    fmt.Println(bf.Query("apple"))  // 输出: true
    fmt.Println(bf.Query("orange")) // 输出: true
    fmt.Println(bf.Query("banana")) // 输出: false
}