python中布隆过滤器用法详解

IT之一小佬

已于 2023-11-05 23:02:49 修改

阅读量4k

点赞数 2

分类专栏： Redis数据库文章标签： python redis 布隆过滤器

于 2022-11-13 23:46:04 首次发布

本文链接：https://blog.csdn.net/weixin_44799217/article/details/127830673

版权

Redis数据库专栏收录该内容

34 篇文章 5 订阅

订阅专栏

1、布隆过滤器的介绍

布隆过滤器（Bloom Filter），是1970年，由一个叫布隆的小伙子提出的。它实际上是一个很长的二进制向量和一系列随机映射函数，二进制大家应该都清楚，存储的数据不是0就是1，默认是0。主要用于判断一个元素是否在一个集合中，0代表不存在某个数据，1代表存在某个数据。

布隆过滤器是一种概率空间高效的数据结构，特点是高效地插入和查询，用来告诉你 “某样东西一定不存在或者可能存在”。相比于传统的 List、Set、Map 等数据结构，它更高效、占用空间更少，但是缺点是其返回的结果是概率性的，而不是确切的。

布隆过滤器是一种数据结构，比较巧妙的概率型数据结构（probabilistic data structure），特点是高效地插入和查询，可以用来告诉你 “某样东西一定不存在或者可能存在”。

注意：

布隆说不存在一定不存在，布隆说存在你要小心了，它有可能不存在。

2、布隆过滤器的用途

解决Redis缓存穿透。
在爬虫时，对爬虫网址进行过滤，已经存在布隆中的网址，不在爬取。
垃圾邮件过滤，对每一个发送邮件的地址进行判断是否在布隆的黑名单中，如果在就判断为垃圾邮件。
大量数据时，判断给定的数据是否在其中。
黑名单过滤

3、布隆过滤器的原理

3.1 存入过程

就是将数据以某种方式以二进制形式存入结合中。

过程如下：

通过K个哈希函数计算该数据，返回K个计算出的hash值
这些K个hash值映射到对应的K个二进制的数组下标
将K个下标对应的二进制数据改成1。

例如，第一个哈希函数返回x，第二个第三个哈希函数返回y与z，那么： X、Y、Z对应的二进制改成1。

3.2 查询过程

布隆过滤器主要作用就是：查询一个数据在不在这个二进制的集合中。

查询过程如下：

通过K个哈希函数计算该数据，对应计算出的K个hash值
通过hash值找到对应的二进制的数组下标
判断：如果存在一处位置的二进制数据是0，那么该数据不存在。如果都是1，该数据存在集合中。（这种判断存在一定的误判率）

3.3 删除过程

一般是不能删除布隆过滤器的，这也是其一个缺点。

4、布隆过滤器的优缺点

4.1 优点

由于存储的是二进制数据，所以占用的空间很小
它的插入和查询速度是非常快的，时间复杂度是O（K），可以联想一下HashMap的过程
保密性很好，因为本身不存储任何原始数据，只有二进制数据

4.2 缺点

添加数据是通过计算数据的hash值，那么很有可能存在这种情况：两个不同的数据计算得到相同的hash值。

例如图中的“你好”和“hello”，假如最终算出hash值相同，那么他们会将同一个下标的二进制数据改为1。这个时候，你就不知道下标为2的二进制，到底是代表“你好”还是“hello”。

1.存在误判率

假如上面的图没有存"hello"，只存了"你好"，那么用"hello"来查询的时候，会判断"hello"存在集合中。因为“你好”和“hello”的hash值是相同的，通过相同的hash值，找到的二进制数据也是一样的，都是1。

2.删除困难

还是用上面的举例，因为“你好”和“hello”的hash值相同，对应的数组下标也是一样的。这时候想去删除“你好”，将下标为2里的二进制数据，由1改成了0。那么我们是不是连“hello”都一起删了呀。（0代表有这个数据，1代表没有这个数据）

总结：

随着数据的增加，误判率随之增加；
无法做到删除数据；只能判断数据是否一定不存在，而无法判断数据是否一定存在。
无法返回元素本身
无法删除某个元素

5、python中使用布隆过滤器

使用pybloom_live进行操作。

安装：

pip install pybloom_live

示例代码：

from pybloom_live import ScalableBloomFilter, BloomFilter


# 可自动扩容的布隆过滤器
bloom = ScalableBloomFilter(initial_capacity=100, error_rate=0.001)

url1 = 'http://www.baidu.com'
url2 = 'http://www.zhihu.com'

bloom.add(url1)
print(url1 in bloom)
print(url2 in bloom)

# BloomFilter 是定长的
bf = BloomFilter(capacity=1000)
bf.add(url1)
print(url1 in bf)
print(url2 in bf)

运行结果：

6、redis中使用布隆过滤器

详细的文档可以参考官方文档：Quick start | Redis

这个模块不仅仅实现了布隆过滤器，还实现了 CuckooFilter（布谷鸟过滤器），以及 TopK功能。CuckooFilter是在 BloomFilter的基础上主要解决了BloomFilter不能删除的缺点。

传统的redis服务器安装 RedisBloom 插件，详情可以参考：centos7中安装redis插件bloom-filter_IT之一小佬的博客-CSDN博客

也可以使用docker进行安装：

docker pull redislabs/rebloom:latest
docker run -p 6379:6379 --name redis-redisbloom redislabs/rebloom:latest
docker exec -it redis-redisbloom /bin/bash

使用pybloom_live进行操作。

安装：

pip install redisbloom

示例代码：【注意：代码执行之前要确保服务器安装了redis插件：bloom-filter】

from redisbloom.client import Client


rb = Client(host='192.168.124.27', port='6379')

rb.bfAdd('urls', 'baidu')
rb.bfAdd('urls', 'google')
print(rb.bfExists('urls', 'baidu'))
print(rb.bfExists('urls', 'tencent'))

rb.bfMAdd('urls', 'a', 'b')
print(rb.bfMExists('urls', 'google', 'a', 'd'))

运行结果：

示例代码：

import math
import redis
import time
import mmh3


class BloomFilter(object):
    # 内置100个随机种子
    SEEDS = [543, 460, 171, 876, 796, 607, 650, 81, 837, 545, 591, 946, 846, 521, 913, 636, 878, 735, 414, 372,
             344, 324, 223, 180, 327, 891, 798, 933, 493, 293, 836, 10, 6, 544, 924, 849, 438, 41, 862, 648, 338,
             465, 562, 693, 979, 52, 763, 103, 387, 374, 349, 94, 384, 680, 574, 480, 307, 580, 71, 535, 300, 53,
             481, 519, 644, 219, 686, 236, 424, 326, 244, 212, 909, 202, 951, 56, 812, 901, 926, 250, 507, 739, 371,
             63, 584, 154, 7, 284, 617, 332, 472, 140, 605, 262, 355, 526, 647, 923, 199, 518]

    def __init__(self, capacity=1000000000, error_rate=0.00000001, conn=None, key='BloomFilter'):
        """
        初始化布隆过滤器
        :param capacity: 预先估计要去重的数量
        :param error_rate: 表示错误率
        :param conn: 表示redis的连接客户端
        :param key: 表示在redis中的键的名字前缀
        """
        # 需要的总bit位数
        self.m = math.ceil(capacity*math.log2(math.e)*math.log2(1/error_rate))
        # 需要最少的hash次数
        self.k = math.ceil(math.log1p(2)*self.m/capacity)
        # 需要的多少M内存
        self.mem = math.ceil(self.m/8/1024/1024)
        # 需要多少个512M的内存块,value的第一个字符必须是ascii码，所有最多有256个内存块
        self.blocknum = math.ceil(self.mem/512)
        self.seeds = self.SEEDS[0: self.k]
        self.key = key
        self.N = 2 ** 31 - 1
        self.redis = conn
        print(self.m)
        print(self.k)
        print(self.mem)

    def add(self, value):
        name = self.key + '_' + str(ord(value[0]) % self.blocknum)
        hashs = self.get_hash(value)
        for hash in hashs:
            self.redis.setbit(name, hash, 1)

    def get_hash(self, value):
        hashs = list()
        for seed in self.seeds:
            hash = mmh3.hash(value, seed)
            if hash >= 0:
                hashs.append(hash)
            else:
                hashs.append(self.N - hash)
        return hashs

    def is_exist(self, value):
        name = self.key + '_' + str(ord(value[0]) % self.blocknum)
        hashs = self.get_hash(value)
        exist = True
        for hash in hashs:
            exist = exist & self.redis.getbit(name, hash)
        return exist


pool = redis.ConnectionPool(host='192.168.124.27', port='6379', db=0)
conn = redis.Redis(connection_pool=pool)

start = time.time()
bf = BloomFilter(conn=conn)
url1 = 'www.baidu.com'
url2 = 'www.zhihu.com'
url3 = 'www.study.com'
bf.add(url1)
bf.add(url2)
print(bf.is_exist(url2))
print(bf.is_exist(url3))

运行结果：