布隆过滤器——(C++)

布隆过滤器是一种概率型数据结构,用于高效地判断一个元素是否可能存在在一个大规模集合中,常用于去重场景。文章介绍了布隆过滤器的概念、哈希函数的选择、位图实现以及其优点和缺点。同时,探讨了在删除操作上的挑战,并提出了计数布隆过滤器的解决方案。此外,还讨论了布隆过滤器在处理大数据量场景下的应用,如找出大量IP地址中出现次数最多的IP和两个大文件的交集问题。
摘要由CSDN通过智能技术生成

布隆过滤器的提出

我们在使用新闻客户端看新闻时,它会给我们不停地推荐新的内容,它每次推荐时要去重,去掉那些已经看过的内容。问题来了,新闻客户端推荐系统如何实现推送去重的? 用服务器记录了用户看过的所有历史记录,当推荐系统推荐新闻时会从每个用户的历史记录里进行筛选,过滤掉那些已经存在的记录。 如何快速查找呢?

  1. 用哈希表存储用户记录,缺点:浪费空间
  2. 用位图存储用户记录,缺点:不能处理哈希冲突
  3. 将哈希与位图结合,即布隆过滤器

布隆过滤器概念

布隆过滤器是由布隆在1970年提出的 一种紧凑型的、比较巧妙的概率型数据结构,特点是高效地插入和查询,可以用来告诉你 “某样东西一定不存在或者可能存在”,它是用多个哈希函数,将一个数据映射到位图结构中。此种方式不仅可以提升查询效率,也可以节省大量的内存空间。

在这里插入图片描述

哈希函数和布隆过滤器的长度

在这里插入图片描述
假设有3个哈希函数,那么大约m=4n。

位图的代码

namespace g
{
   
	template<size_t N>
	class bitset
	{
   
	public:
		bitset()
		{
   
			_bits.resiez(N / 32 + 1,0);
		}
		void set(size_t pos)
		{
   
			assert(pos < N);
			//计算pos映射在第几个数的多少位
			int i = pos / 32;
			int j = pos % 32;
			_bits[j] |= (1 << j);//将该位置设为1
		}
		void reset(size_t pos)
		{
   
			assert(pos < N);
			//计算pos映射在第几个数的多少位
			int i = pos / 32;
			int j = pos % 32;
			_bits[j] &= (~(1 << j));//左移取反在相与
		}
		void filp(size_t pos)
		{
   
			assert(pos < N
评论 28
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

_End丶断弦

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值