位图和布隆过滤器

位图

对于海量数据我们如何快速判断一个值是否存在呢?如果使用哈希,红黑树等容器就一定会导致内存不足,因此我们引入了位图的概念。位图中采用一个比特位代表一个值来标记该值是否存在,注意并不是把这个数据存起来,而是只标记它是否存在,例如一个整型int,他就可以表示8个数据是否存在
在这里插入图片描述
用第n个位标记数字n是否存在

模拟实现

我们以在整型int中标记为例,在32位机器中一个int类型占据8个bit位
如何将数字n标记为存在?
我们首先要计算数字n在数组中对应的下标,然后在计算出该数字在该数据的第几位。

int i = x / 32;//算出在数组中对应的下标
int n = x % 32;//算出在第几位

Set

将数字n对应的位置置为1

void Set(size_t x)
{
	int i = x / 32;//算出在数组中的哪个位置
	int n = x % 32;//算出在第几位
	_bs[i] |= (1 << n);//将数组中第i个中的第n位置为1
}

Reset

将数字n对应的位置置为0

//将第x位重置为0
void Reset(size_t x)
{
	int i = x / 32;
	int n = x % 32;
	_bs[i] &= ~(1 << n);
}

Test

检验数字n是否存在

//判断第x个比特位数据是否为1
bool Test(size_t x)
{
	int i = x / 32;
	int n = x % 32;
	return _bs[i] & (1 << n);
}

位图应用

1、 给定100亿个整数,设计算法找到只出现一次的整数?
我们可以将原来一个位表示一个值,改为两个位表示一个值,如果出现两次及两次以上就用11来表示,如果只出现一次就用01表示,除此之外我们也可以设计一个类,类中成员为两个位图,通过两个位图来判断哪个数据出现一次,当n第一次出现时就把位图1第x位设为1,当第二次出现时,检查位图1中该数是否存在如果存在就把位图2也设为1
2、给两个文件,分别有100亿个整数,我们只有1G内存,如何找到两个文件交集?
把这些数据都放入位图1和位图2,然后遍历判断当两个位图中该位置都为1时,就证明该数据为交集,注意位图也有去重的作用
3、位图应用变形:1个文件有100亿个int,1G内存,设计算法找到出现次数不超过2次的所有整数
同问题1,我们把出现1次的数据在位图1和位图2中表示分别为0和1,出现两次在位图1和位图2中表示分别为1和0,出现两次以上在位图1和位图2中表示分别为1和1。

布隆过滤器

位图最大的缺点就是:位图一般只能处理整形,如果内容编号是字符串,就无法处理了,因此我们引入了布隆过滤器,布隆过滤器就是让一个字符串同时去标记在位图中的多个位置,要判断一个字符串是否已经存在就要去判断它在为图中对应的多个位置是否都为1。但是布隆过滤器也有它自己的缺陷,就是可能会出现误判,即以存在的字符串已经把要插入的字符串对应的位置都标记为了1,但是该字符串并不存在,这就会导致误判,此外如果判定要插入的字符串不存在,该字符串它一定是不存在的。
布隆过滤器通过多个映射函数,将某一个字符串标记在位图中的多个位置。

布隆过滤器应用

1、 给两个文件,分别有100亿个query,我们只有1G内存,如何找到两个文件交集?分别给出精确算法和近似算法
2.、如何扩展BloomFilter使得它支持删除元素的操作

哈希切割

给一个超过100G大小的log file, log中存着IP地址, 设计算法找到出现次数最多的IP地址?
与上题条件相同,如何找到top K的IP?如何直接用Linux系统命令实现?

  • 34
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

梦想很美

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值