布隆过滤器原理及应用场景

一、布隆过滤器概述

1.1 什么是布隆过滤器

布隆过滤器(Bloom Filter)是一种数据结构,用于快速检查一个元素是否属于一个集合。

它通常用于解决海量数据的存在性问题( 即快速查找某个元素是否存在于大规模数据集合),具有高效的查询速度和低内存占用的特点。

1.2 优缺点

优点:高效的查询速度;低内存占用;实现简单

缺点:存在一定的误判率(False Positive),即有些元素被错误地判断为存在于集合中。

布隆过滤器的性能和误判率受到位数组大小和哈希函数数量的影响。增加位数组的大小和哈希函数的数量可以降低误判率,但也会增加内存占用。

以上优缺点的具体解析查看布隆过滤器原理

二、布隆过滤器原理

2.1 布隆过滤器的组成

布隆过滤器 = 一个位数组(通常称为比特数组) + 多个哈希函数。

这里使用多个哈希函数的原因在于降低因哈希碰撞所导致的误判

在这里插入图片描述

布隆过滤器使用bit数组,可以节省内存。Bloom Filter 会使用一个较大的 bit 数组来保存所有的数据,数组中的每个元素都只占用 1 bit ,并且每个元素只能是 0 或者 1(代表 false 或者 true)。

布隆过滤器使用哈希函数,查询操作非常快速。当需要查询一个元素是否存在于布隆过滤器中时,只需要对该元素经过多个哈希函数计算得到的位进行检查,通常是在位数组中进行一系列的位操作,这些操作的时间复杂度是常数级别的,与集合中元素的数量无关,因此查询速度非常快。

但是,由于哈希碰撞(Hash Collisions),布隆过滤器存在误判率。哈希函数将不同的输入映射到位数组中的不同位置,但由于布隆过滤器通常使用的是多个哈希函数,并且位数组的大小是有限的,所以不同的元素可能会映射到位数组中的相同位置,导致哈希碰撞。

2.2 元素添加和查询

当元素被添加到布隆过滤器中时,具体操作为:将元素经过多个哈希函数得到的多个哈希值对应的位标记为1。

当需要查询某个元素是否存在于布隆过滤器中时,具体操作为:

  1. 对该元素进行哈希运算
  2. 然后检查对应的位是否都为1,如果存在任意一位不为1,则说明该元素一定不存在于集;如果所有位都为1,则说明该元素可能存在于集合中,但也有一定的误判率。

三、 应用场景

布隆过滤器适用于海量数据中判定某个数据是否存在且容忍轻微误差这一场景。

例如,海量数据去重,缓存穿透

参考资料

布隆过滤器 | JavaGuide

布隆(Bloom Filter)过滤器——全面讲解,建议收藏-CSDN博客

手摸手之注册用户如何防止缓存穿透? (yuque.com)

  • 14
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
概要介绍: 本课程主要是介绍并实战一款java中间件~redisson,介绍redisson相关的核心技术栈及其典型的应用场景,其中的应用场景就包括布隆过滤器、限流器、短信发送、实时/定时邮件发送、数据字典、分布式服务调度等等,在业界号称是在java项目里正确使用redis的姿势。本课程的目标就在于带领各位小伙伴一起学习、攻克redisson,更好地巩固自己的核心竞争力,而至于跳槽涨薪,自然不在话下!  课程内容: 说起redisson,可能大伙儿不是很熟悉,但如果说起redis,想必肯定很多人都晓得。没错,这家伙字如其名,它就是架设在redis基础上的一款综合性的、新型的中间件,号称是java企业级应用开发中正确使用redis的姿势/客户端实例。 它是架设在redis基础之上,但拥有的功能却远远多于原生Redis 所提供的,比如分布式对象、分布式集合体系、分布式锁以及分布式服务调度等一系列具有分布式特性的对象实例… 而这些东西debug将在本门课程进行淋漓尽致的介绍并实战,除此之外,我们将基于spring boot2.0搭建的多模块项目实战典型的应用场景:对象存储、数据字典、短信发送、实时/定时邮件发送、布隆过滤器、限流组件、分布式服务调度....课程大纲如下所示: 下面罗列一下比较典型的核心技术栈及其实际业务场景的实战,如下图所示为redisson基于订阅-发布模式的核心技术~主题Topic的实际业务场景,即实时发送邮件: 而下图则是基于“多值映射MultiMap”数据结构实战实现的关于“数据字典”的缓存管理: 除此之外,我们还讲解了可以与分布式服务调度中间件dubbo相媲美的功能:分布式远程服务调度,在课程中我们动手搭建了两个项目,用于分别充当“生产者”与“消费者”角色,最终通过redisson的“服务调度组件”实现服务与服务之间、接口与接口之间的调用!  课程收益: (1)认识并掌握redisson为何物、常见的几种典型数据结构-分布式对象、集合、服务的应用及其典型应用场景的实战; (2)掌握如何基于spring boot2.0整合redisson搭建企业级多模块项目,并以此为奠基,实战企业级应用系统中常见的业务场景,巩固相应的技术栈! (3)站在项目管理与技术精进的角度,掌握对于给定的功能模块进行业务流程图的绘制、分析、模块划分、代码实战与性能测试和改进,提高编码能力与其他软实力; (4)对于Java微服务、分布式、springboot精进者而言,学完本课程,不仅可以巩固提高中间件的实战能力,其典型的应用场景更有助于面试、助力相关知识点的扫盲! 如下图所示: 关键字:Spring Boot,Redis,缓存穿透,缓存击穿,缓存雪崩,红包系统,Mybatis,高并发,多线程并发编程,发送邮件,列表List,集合Set,排行榜,有序集合SortedSet,哈希Hash ,进阶实战,面试,微服务、分布式 适用人群:redisson学习者,分布式中间件实战者,微服务学习者,java学习者,spring boot进阶实战者,redis进阶实战者
Redis布隆过滤器(Redis Bloom Filter)是一种基于概率数据结构的空间效率高、查询效率快的数据过滤器。它主要用于判断一个元素是否存在于一个大型集合中,具有低内存消耗和快速查询的特点。 布隆过滤器原理是利用多个哈希函数和一个位数组来表示集合中的元素。当一个元素被加入到布隆过滤器中时,会通过多个哈希函数计算出多个哈希值,并将对应的位数组位置设为1。当需要判断一个元素是否存在时,同样通过多个哈希函数计算出多个哈希值,并检查对应的位数组位置是否都为1。如果有任何一个位置为0,则可以确定该元素不存在于集合中;如果所有位置都为1,则可能存在于集合中,但并不确定。 Redis布隆过滤器通过提供以下几个命令来实现: 1. BF.ADD:将一个元素添加到布隆过滤器中。 2. BF.EXISTS:判断一个元素是否存在于布隆过滤器中。 3. BF.MADD:批量添加多个元素到布隆过滤器中。 4. BF.MEXISTS:批量判断多个元素是否存在于布隆过滤器中。 需要注意的是,布隆过滤器在判断元素存在时可能会出现误判,即判断元素存在但实际上不存在。这是因为布隆过滤器的位数组中可能存在碰撞,多个元素计算得到的位数组位置可能相同。因此,在使用布隆过滤器时需要权衡误判率和内存消耗之间的关系,并根据具体场景进行调整。 Redis布隆过滤器可以应用于一些需要快速判断元素是否存在的场景,例如缓存穿透的防护、URL去重、爬虫过滤等。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值