BloomFilter-布隆过滤器

最新推荐文章于 2024-06-14 16:38:04 发布

JungleChow

最新推荐文章于 2024-06-14 16:38:04 发布

阅读量167

点赞数

分类专栏： Scala Python 文章标签：过滤器哈希表 python

本文链接：https://blog.csdn.net/yiyao8236/article/details/111456900

版权

Python 同时被 2 个专栏收录

3 篇文章 0 订阅

订阅专栏

Scala

1 篇文章 0 订阅

订阅专栏

BloomFilter原理

目的：去重，或判断是否存在
原理：使用一个很长的二进制向量（bit向量）和多个哈希函数构成。将元素使用多个哈希函数生成多个哈希值，并映射到bit向量上。
优缺点：快速、省空间，但存在一定误判率。常见的方法是建立白名单，存储可能误判的元素
如何选择哈希函数个数k，布隆过滤器的长度m（bit）
h：插入元素个数；p：误判率
$\ m=-\frac{n\ln p}{(\ln 2)^{2}}\,$
$\ k=\frac{m}{n}\ln 2\,$

BloomFilter实现

Python

from pybloom import BloomFilter, ScalableBloomFilter
def bloomFilter():
   # error_rate是指最大的误报率是 0.1%
   # BloomFilter 是一个定容的过滤器
   # ScalableBloomFilter是一个不定容量的布隆过滤器，它可以不断添加元素
   # add方法是添加元素，若元素已在布隆过滤器中，返回true，如果不在返回fasle并将该元素添加到过滤器中。判断元素是否在过滤器中，使用in运算符
   # BloomFilter 定容
   bf = BloomFilter(capacity=10000, error_rate=0.001)
   bf.add('test')
   print 'test' in bf
   # ScalableBloomFilter可扩容
   sbf = ScalableBloomFilter(mode=ScalableBloomFilter.SMALL_SET_GROWTH)
   sbf.add('test')
   print 'tests' in sbf

Scala

<dependency>
      <groupId>com.google.guava</groupId>
      <artifactId>guava</artifactId>
      <version>23.0</version>
</dependency>

import com.google.common.hash.{BloomFilter, Funnels}
def bloomFilter(): Unit = {
    val bf = BloomFilter.create(Funnels.unencodedCharsFunnel, 1000l, 0.1)
    bf.put("test")
    println(bf.mightContain("test"))
  }

JungleChow

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
BloomFilter-布隆过滤器

目录BloomFilter原理BloomFilter实现BloomFilter原理目的：去重，或判断是否存在原理：使用一个很长的二进制向量（bit向量）和多个哈希函数构成。将元素使用多个哈希函数生成多个哈希值，并映射到bit向量上。优缺点：快速、省空间，但存在一定误判率。常见的方法是建立白名单，存储可能误判的元素如何选择哈希函数个数k，布隆过滤器的长度m（bit）h：插入元素个数；p：误判率 m=−nln⁡p(ln⁡2)2 \ m=-\frac{n\ln p}{(\ln 2)^{
复制链接

扫一扫

专栏目录