星期五呀划波水呀

最新推荐文章于 2022-09-03 15:06:43 发布

阿毛的睡前小故事

最新推荐文章于 2022-09-03 15:06:43 发布

阅读量121

点赞数

分类专栏：笔记

本文链接：https://blog.csdn.net/weixin_43865560/article/details/109541591

版权

笔记专栏收录该内容

6 篇文章 0 订阅

订阅专栏

布隆过滤器

最近在学Redis的时候，看到Redis中解决缓存击穿（就是数据库里面没有的数据在的数据，在redis上面也不会有，然后进程看redis上面没有，就去访问数据库。这种情况一多，容易造成数据库奔溃）的问题时候。看到一种解决方法叫布隆过滤器，熟悉的赶脚啊。
在学大数据的时候，hdaoop的hbase组件里面也有这种算法。布隆过滤器的大概工作原理就是我捋了一下，把自己学到的整理一下。
布隆过滤器的分成两个重要的部分吧，一个bool[]（逻辑数组），因为布隆过滤器只要在数组的相应的位置标记一下，当前这个下标是否是有值的。就完成了对数据的存储。
那么数据又是怎知道，自己该往bool[]的那个位置放嘞。这就是布隆过滤器的第二个部分了。hash算法，在当前的布隆过滤器中定义单个存储的hash值算法（可以多个），将得到的hash值整除bool的长度，得到的数字就是当前元素在布隆过滤器上得存储位置（不存数据，只是表明当前这个元素已在布隆过滤器里面被标记了），就是bool[]中的相应位置设置为true。
举个例子：
我现在有一个布隆过滤器，bool[]长度是10；
现在我有两个元素 “北京”，“南京”。我定了两个hash算法，
1.根据元素的第一个字符求hash值，
2.根据元素的第二个字符求hash值，他们整除10之后存储到bool[]中，这个时候bool[]中只有三个位置设置为了true（“北京”和“南京”，“京”子重复了，所以“南京”存储的时候，会和“北京”的一个hash值重复）；
将这个两个元素存储到布隆过滤器中之后，bool[]中只有三个位置为true。
这个时候我检索“南北”，“东京”这两个元素在不在当前这个布隆过滤器中。聪明的宝贝已经知道了，“南北”会被判断为在当前的布隆过滤器中，“东京”不在。
布隆过滤器检索元素的时候是有一定误差的，肯定不存在，概率性存在（可能存在），为什么嘞？
因为根据我们定义的hash算法，“南北”这个元素的hash值正好已经在bool[]中被标记了，而“东京”这个元素根据 1. hash算法算出的hash值不在bool[]中。所以布隆过滤器只会对元素存在有误判几率。不存在则肯定不存在。
所以布隆过滤器很适合redis中解决缓存击穿问题，减少对数据库的多次访问。