【C++进阶】哈希的应用之位图和布隆过滤器

最新推荐文章于 2024-09-08 17:41:31 发布

西西弗质

最新推荐文章于 2024-09-08 17:41:31 发布

阅读量1k

点赞数 26

分类专栏： C++ 文章标签： c++ 哈希算法开发语言位图布隆过滤器

本文链接：https://blog.csdn.net/weixin_64906519/article/details/136997722

版权

C++ 专栏收录该内容

27 篇文章 0 订阅

订阅专栏

位图和布隆过滤器

一，位图
- 1. 实现
- 2. 位图的应用
二，布隆过滤器
- 1. 使用场景
- 2. 模拟实现
三，海量数据面试题
- 哈希切分
四，总结

这一节我们来看哈希的应用

一，位图

先来看一个面试题
在这里插入图片描述
这里如果用unordered_set来解决，是不可取的，因为一个整型4个Byte，40亿个整型那就是16个G，把这16个G直接放进内存是不合理的，所以就要用到位图。

位图和哈希表相比，就是将每个数据元素映射到每一个比特位上。适用于海量数据，数据无重复的场景。通常是用来判断某个数据存不存在的。

1. 实现

位图的实现比较简单，下面是位图bitset的一些常用接口：
在这里插入图片描述
首先我们要构造位图，确定好要开的空间大小
这里的构造需要传入所需要的比特位数，然后我们在实现时根据传入的N来确定相应的比特位

这里我们可以先写出bitset的框架：

template<size_t N>//非类型模板参数---表示需要多少个比特位去映射
class bitset {
public:
	bitset() {
		//构造函数根据需要的比特位来开相应的数组
		_bits.resize((N >> 5) + 1, 0);//除以2的5次方相当于右移5位
	}
	//...
private:
	vector<int> _bits;
};

这里我们也是只模拟实现主要的接口：
在这里插入图片描述
set的作用是将一个整型放入位图中，映射的时候我们先找到要映射的是第几个字节，然后再计算这个字节的第几个比特位，将这个比特位置为1即可

在这里插入图片描述

reset的作用是将数据从位图中删除，也就是将映射的比特位置为0

void set(size_t x) {//将映射到的位置置为1
	size_t i = x / 32;//i表示映射在数组的第几个整型中
	size_t j = x % 32;//j表示映射在第i个整型的第j位上
	_bits[i] |= (1 << j);//将映射到的位置置为1---用相应的数去 或等 （任何数和1或都为1，和0或为任何数）
}

void reset(size_t x) {//将映射的位置置为0
	size_t i = x / 32;
	size_t j = x % 32;
	_bits[i] &= ~(1 << j);//将映射的位置置为0---将相应的数取反去 与等 （任何数和1与为如何数，和0与都为0）
}

位图解决的是在不在的问题，当然位图这种结构也有一个扩展的问题，就是找到第一次出现的数的这类问题，对于这类问题，其实就是用两个位图来存放一个数
在这里插入图片描述
具体的代码可以进入我的gitee仓库查看：位图的实现

2. 位图的应用

对于位图来说，其只能存储整型的数据，所以其常见的应用就是如下几个：
在这里插入图片描述

二，布隆过滤器

1. 使用场景

对于位图而言，其只能处理整型的数据，如果要处理字符串类型呢，就无法处理了

我们如果简单地将字符串转换为整型，再映射到对应的位，那么就会出现多个字符串映射到同一个位的问题，因为整型最大只有32位，但是字符串可以有很多位
在这里插入图片描述
为了解决这样的问题我们可以让一个字符串映射到多个比特位上

这样的结构也会导致判断一个字符串不在是准确的，因为只要有一个比特位为0就是不在，判断在是不准确的，因为哈希函数存在误判。

这种结构就是布隆过滤器，布隆过滤器是由布隆（Burton Howard Bloom）在1970年提出的一种紧凑型的、比较巧妙的概率型数据结构，特点是高效地插入和查询，可以用来告诉你 “某样东西一定不存在或者可能存在”，它是用多个哈希函数，将一个数据映射到位图结构中。此种方式不仅可以提升查询效率，也可以节省大量的内存空间

至于为什么叫布隆过滤器，我们可以看下面的使用场景进行理解：
假设有一个注册页面需要你来创建用户名，如果这个用户名已经被创建，则需要换一个名称，那么面对大量的数据情况下，如果查找这个创建的用户名是否已经被申请了呢？总不可能每次都在后台的服务器上一个个查找吧，这时就可以借助布隆过滤器了，如果查找这个名称存在，则不可以创建，如果不在，则可以创建。这种场景下是允许误判的，因为判断一个不在的比误判一个存在的要合理
在这里插入图片描述

2. 模拟实现

下面我们来模拟实现一下，布隆过滤器底层用的其实也是位图，所以实现时我们直接用位图的接口即可
这里默认处理的类型是string，所以要有对应的哈希函数来将字符串转换为整型，这里我们直接用三种哈希函数来转换。

//这三个哈希函数造成的哈希冲突是最少的
struct BKDRHash
{
	size_t operator()(const string& key)
	{
		// BKDR
		size_t hash = 0;
		for (auto e : key)
		{
			hash *= 31;
			hash += e;
		}

		return hash;
	}
};

struct APHash
{
	size_t operator()(const string& key)
	{
		size_t hash = 0;
		for (size_t i = 0; i < key.size(); i++)
		{
			char ch = key[i];
			if ((i & 1) == 0)
			{
				hash ^= ((hash << 7) ^ ch ^ (hash >> 3));
			}
			else
			{
				hash ^= (~((hash << 11) ^ ch ^ (hash >> 5)));
			}
		}
		return hash;
	}
};

struct DJBHash
{
	size_t operator()(const string& key)
	{
		size_t hash = 5381;
		for (auto ch : key)
		{
			hash += (hash << 5) + ch;
		}
		return hash;
	}
};


template<size_t N, class K = string,
class Hashfunc1 = BKDRHash,
class Hashfunc2 = APHash,
class Hashfunc3 = DJBHash>//这里默认处理的是sting字符串,三个仿函数是哈希函数，将string映射成整型
class BloomFilter {
public:
	void set(const K& key)
	{
		//将字符串经过哈希得到三个整型
		size_t hash1 = Hashfunc1()(key) % N;//仿函数匿名对象,%N是为了不超出N
		size_t hash2 = Hashfunc2()(key) % N;
		size_t hash3 = Hashfunc3()(key) % N;

		//再将这三个整型分别映射到三个比特位
		_b.set(hash1);
		_b.set(hash2);
		_b.set(hash3);
	}
private:
	bitset<N> _b;
};

完整代码可以参考这里：布隆过滤器

三，海量数据面试题

哈希切分

有这样一个问题
在这里插入图片描述
这里有两个100亿的查询字符串query，是不可能将这两个字符串放进内存直接查询的，所以就要做到哈希切割

这样切分后，每个小文件都是相同的数据元素，找交集时会在相同的文件中查找

但是如果切分后的小文件还是很大怎么办

切分后的小文件很大的原因有两个
1.一个文件中都是相同的query
2.这个文件中很多不同的query
如果遇到这种问题，则继续将这个小文件放入set中，如果是第一种情况，那么在放入set中时，重复的元素不会被存入
如果是第二种情况，则继续进行哈希切分处理。

四，总结

哈希这部分我们也算是讲解完了，哈希的用途还是非常的广。希望大家可以对哈希有一个深入的理解。C++学到这里其实也走过了大部分了，但是在这里我想说基础还是很重要的，基础越牢固，后面的学习才会更快。希望大家都可以打好基础，对C++有深入的学习。

西西弗质

关注

26
点赞
踩
22

收藏

觉得还不错? 一键收藏
1
评论
【C++进阶】哈希的应用之位图和布隆过滤器

哈希这部分我们也算是讲解完了，哈希的用途还是非常的广。希望大家可以对哈希有一个深入的理解。C++学到这里其实也走过了大部分了，但是在这里我想说基础还是很重要的，基础越牢固，后面的学习才会更快。希望大家都可以打好基础，对C++有深入的学习。
复制链接

扫一扫

专栏目录