Redis 预防缓存穿透“神器” — 布隆过滤器

最新推荐文章于 2024-06-25 01:30:00 发布

wohu007

最新推荐文章于 2024-06-25 01:30:00 发布

阅读量659

点赞数 1

分类专栏： Redis

本文链接：https://blog.csdn.net/wohu1104/article/details/119835121

版权

Redis 专栏收录该内容

28 篇文章 11 订阅

订阅专栏

1. 布隆过滤器

1.1 概念

在架构设计时有一种最常见的设计被称为布隆过滤器，它可以有效减少缓存穿透的情况。其主旨是采用一个很长的二进制数组，通过一系列的 Hash 函数来确定该数据是否存在。

布隆过滤器本质上是一个 n 位的二进制数组。你也知道二进制只有 0 和 1 来表示，针对于当前我们的场景。这里我模拟了一个二进制数组，其每一位它的初始值都是 0。

布隆过滤器而这个二进制数组会被存储在 Redis 服务器中，那么这个数组该怎么用呢？

1.2 原理

使用若干次 Hash 来确定其位置。

假设有 1000 个商品编号，从 1~1000。作为布隆过滤器，在初始化的时候，实际上就是对每一个商品编号进行若干次 Hash 来确定它们的位置。

（1）1 号商品计算
比如说针对于当前的“1”编号，我们对其执行了三次 Hash。所谓 Hash 函数就是将数据代入以后确定一个具体的位置。

Hash 1 函数：它会定位到二进制数组的第 2 位上，并将其数值从 0 改为 1；

Hash 2 函数：它定位到索引为 5 的位置，并将从 0 改为 1；

Hash 3 函数：定位到索引为 99 的位置上，将其从 0 改为 1。

hash1 （2）2 号商品计算
那 1 号商品计算完以后，该轮到 2 号商品。2 号商品经过三次 Hash 以后，分别定位到索引为 1、3 以及 98 号位置上。
hash2 原始数据中 1 号位因为刚才已经变成了 1，现在它不变；而 3 号位和 98 号位原始数据从 0 变为 1。

这里又衍生出一个 Hash 新规则：如果在 Hash 后，原始位它是 0 的话，将其从 0 变为 1；如果本身这一位就是 1 的话，则保持不变。

（3）1000 号商品计算
此时 2 号商品也处理完了，我们继续向后 3、4、5、6、7、8 直到编号达到了最后一个 1000，当商品编号 1000 处理完后，他将索引为 3、6、98 设置为 1。

2. 布隆过滤器在电商商品中的实践

（1）先看一个已存在的情况
比如，此时某一个用户要查询 858 号商品数据。都知道 858 是存在的，那么按照原始的三个 Hash 分别定位到了 1、5 和 98 号位，当每一个 Hash 位的数值都是 1 时，则代表对应的编号它是存在的。
（2）再看一个不存在的情况
例如这里要查询 8888。8888 这个数值经过三次 Hash 后，定位到了 3、6 和 100 这三个位置。此时索引为 100 的数值是 0，在多次 Hash 时有任何一位为 0 则代表这个数据是不存在的。

简单总结一下：如果布隆过滤器所有 Hash 的值都是 1 的话，则代表这个数据可能存在。
注意我的表达：它是可能存在；但如果某一位的数值是 0 的话，它是一定不存在的。

布隆过滤器设计之初，它就不是一个精确的判断，因为布隆过滤器存在误判的情况。

（3）最后看一个误判情况
来看一下当前的演示：比如现在我要查询 8889 的情况，经过三次 Hash 正好每一位上都是 1。尽管在数据库中，8889 这个商品是不存在的；但在布隆过滤器中，它会被判定为存在。这就是在布隆过滤器中会出现的小概率的误判情况。

3. 如何减少布隆过滤器的误判

关于减少误判的产生，方法有两个：

第一个是增加二进制位数。在原始情况下我们设置索引位到达了 100，但是如果我们把它放大 1 万倍，到达了 100 万，是不是 Hash 以后的数据会变得更分散，出现重复的情况就会更小。
第二个是增加 Hash 的次数。其实每一次 Hash 处理都是在增加数据的特征，特征越多，出现误判的概率就越小。

现在我们是做了三次 Hash，那么如果你做十次，是不是它出现误判的概率就会小非常多？但是在这个过程中，代价便是 CPU 需要进行更多运算，这会让布隆过滤器的性能有所降低。

4. 布隆过滤器在 Java 中的应用

在 Java 中提供了一个 Redisson 的组件，它内置了布隆过滤器，可以让程序员非常简单直接地去设置布隆过滤器。
上面代码是 Redisson 的使用办法，在前几行代码，用来设置 Redis 服务器的服务地址及端口号。

而后面关键的地方在这里，我们实例化一个布隆过滤器对象，后面的参数指代 Redis 使用哪个 key 来保存布隆过滤器数据？

下面这句话非常关键，作为当前的布隆过滤器，这里需要调用 tryInit 方法，它有两个参数：

第一个参数是代表初始化的布隆过滤器长度，长度越大，出现误判的可能性就越低。
而第二个 0.01 则代表误判率最大允许为 1%，在我们以前的项目中通常也是设置为 1%。如果把这个数值设置太小，虽然会降低误判率，但会产生更多次的 Hash 操作，会降低系统的性能（正是刚刚讲过的），因此 1% 也是我所建议的数值。

当把布隆过滤器初始化以后，我们便可以通过 add 方法，往里边去添加数据。所谓添加数据，就是将数据进行多次 Hash，将对应位从 0 变为 1 的过程。例如，现在我们把编号 1 增加进去，之后可以通过布隆过滤器的 contains 方法来判断当前这个数据是否存在。

我们输入 1，它输出 true；而输入了不存在的 8888，则输出 false。
请注意：这两个结果的含义是不同的。

如果输出 false，则代表这个数据它是肯定不存在的；
但是如果输出 true 的时候，它有 1% 的概率可能不存在，因为布隆过滤器它存在误判的情况。

5. 布隆过滤器在项目中的应用

布隆过滤器在项目中的使用流程，其实就归结成以下三部分：

第一个部分是在应用启动时，我们去初始化布隆过滤器。例如将 1000 个、1 万个、10 万个商品进行初始化，完成从 0 到 1 的转化工作。
之后便是当用户发来请求时，会附加商品编号，如果布隆过滤器判断编号存在，则直接去读取存储在 Redis 缓存中的数据；如果此时 Redis 缓存没有存在对应的商品数据，则直接去读取数据库，并将读取到的信息重新载入到 Redis 缓存中。这样下一次用户在查询相同编号数据时，就可以直接读取缓存了。
另外一种情况是，如果布隆过滤器判断没有包含编号，则直接返回数据不存在的消息提示，这样便可以在 Redis 层面将请求进行拦截。

你可能会有疑惑，既然布隆过滤器存在误判率，那出现了误判该怎么办呢？

其实在大多数情况下，我们出现误判也不会对系统产生额外的影响。因为像刚才我们设置 1% 的误判率，1 万次请求才可能会出现 100 次误判的情况。我们已经将 99% 的无效请求进行了拦截，而这些漏网之鱼也不会对我们系统产生任何实质影响。

6. 初始化后，对应商品被删怎么办

假如布隆过滤器初始化后，对应商品被删除了，该怎么办呢？这是一个布隆过滤器的小难点。

因为布隆过滤器某一位的二进制数据，可能被多个编号的 Hash 位进行引用。比如说，布隆过滤器中 2 号位是 1，但是它可能被 3、5、100、1000 这 4 个商品编号同时引用。这里是不允许直接对布隆过滤器某一位进行删除的，否则数据就乱了，怎么办呢？

这里业内有两种常见的解决方案：

定时异步重建布隆过滤器。比如说我们每过 4 个小时在额外的一台服务器上，异步去执行一个任务调度，来重新生成布隆过滤器，替换掉已有的布隆过滤器。
计数布隆过滤器。在标准的布隆过滤器下，是无法得知当前某一位它是被哪些具体数据进行了引用，但是计数布隆过滤器它是在这一位上额外的附加的计数信息，表达出该位被几个数据进行了引用。

7. 总体概览

原文：
原文链接

wohu007

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
4
评论
Redis 预防缓存穿透“神器” — 布隆过滤器

1. 布隆过滤器1.1 概念在架构设计时有一种最常见的设计被称为布隆过滤器，它可以有效减少缓存穿透的情况。其主旨是采用一个很长的二进制数组，通过一系列的 Hash 函数来确定该数据是否存在。布隆过滤器本质上是一个 n 位的二进制数组。你也知道二进制只有 0 和 1 来表示，针对于当前我们的场景。这里我模拟了一个二进制数组，其每一位它的初始值都是 0。而这个二进制数组会被存储在 Redis 服务器中，那么这个数组该怎么用呢？1.2 原理使用若干次 Hash 来确定其位置。假设有 1000 个商
复制链接

扫一扫

专栏目录