基本概念
哈希表也称散列表,通过将给定的关键值映射到表中的一个位置来访问记录,以加快查找的速度,时间复杂度为O(1)
。
比如,给定一个表m,给定一个关键值 x,那么 h(x) 就称为哈希函数,表m就称为哈希表,h(x) 就是 x 在哈希表m中存储的下标。
那么 h(x) 怎么求呢,我们需要对 某个数 取余即可。
举个例子:
这一组数有N=6个,为{3、12、25、37、40、49},那么每个数的哈希函数为:
h(3) = 3 % 7 = 3
h(12) = 12 % 7 = 5
h(25) = 25 % 7 = 4
h(37) = 37 % 7 = 2
h(40) = 40 % 7 = 5
h(49) = 49 % 7 = 0
那么对应的哈希表有两种,分别为:
1、拉链法哈希表:
拉链法相当于开一个 h数组,每个数组元素又是一个单链表。
2、开放寻址法哈希表:
h(37)=2,就在下标 2 处放入 37,h(12)=5,就在下标 5 处放入12,h(40)=5,我们发现下标 5 的位置上已经有值了(12),我们就找 5 的下一个坐标,直到坐标上没有值就将 x 放入即可,如果到数组的最后还不能放进去的话,就从数组的第一个位置继续查询,直到能把 x 插入进去。
解释几个问题:
1、我们发现12、40两个不同的数,哈希后的下标都为5,这就是冲突了,我们怎么解决这个冲突呢?有两种方法,分别对应上面的两个图解。
①拉链法
②开放寻址法
2、为什么求下标的时候用的是 余7 呢?经验值得出选择的余数应是大于 N 的第一个质数,这样的话会使得冲突的概率降低到最小,我们这里的 N 是 6,大于 6 的第一个质数是 7 所以是 %7。
3、其实h(x) = (x % N + N) % N,为什么呢?
当 x 为正数时,x % N 就为所求值,至于 +N 和 %N 可以抵消的,等于说还是 x % N。
当 x 为负数时,x % N 是一个负数,+N之后变成正数,再对 N 取余即可。(在c++中,负数取余是负数,而在我们平时数学计算中,负数取余是正数)
例题
AcWing 840. 模拟散列表
维护一个集合,支持如下几种操作:
1、“I x”,插入一个数x;
2、“Q x”,询问数x是否在集合中出现过;
现在要进行N次操作,对于每个询问操作输出对应的结果。
输入格式
第一行包含整数N,表示操作数量。
接下来N行,每行包含一个操作指令,操作指令为”I x”,”Q x”中的一种。
输出格式
对于每个询问指令“Q x”,输出一个询问结果,如果x在集合中出现过,则输出“Yes”,否则输出“No”。
每个结果占一行。
数据范围
1≤N≤105
−109≤x≤109
输入样例:
5
I 1
I 2
I 3
Q 2
Q 5
输出样例:
Yes
No
拉链法求解
这里的 N 为为100000,大于100000的第一个质数是100003,所以我们求h(x)时对100003取余即可。
#include<iostream>
#include<cstring>
using namespace std;
const int N=100003;
int h[N],e[N],ne[N],idx;
// h[] 为哈希表表头
// e[i] 存这个点的值,ne[i] 为 i 的下一个结点的下标,idx 为当前用到的下标
void insert(int x) //插入
{
int k = (x % N + N) % N; //k 即为h(x)
// 把当前这个点插到h[k]的链表上(头插法)
e[idx] = x;
ne[idx] = h[k];
h[k] = idx++;
}
int find(int x) //查询
{
int k = (x % N + N) % N;
for(int i=h[k]; i!=-1; i=ne[i])
if(e[i] == x)
return 1;
return 0;
}
int main()
{
int n;
cin>>n;
memset(h,-1,sizeof(h));
while(n--)
{
char op[2];
int x;
scanf("%s%d", op, &x);
if(*op == 'I') insert(x);
else
{
if(find(x)) cout << "Yes" << endl;
else cout << "No" << endl;
}
}
}
开放寻址法求解
开放寻址法需要我们把h数组开到N的2~3倍大小,这样的话冲突的概率比较低(经验值)。
那么 2 * N = 200000,那么大于200000的第一个质数是200003,那么求h(x)时对200003取余即可。
#include<iostream>
#include<cstring>
using namespace std;
const int N=200003,null=0x3f3f3f3f;
int h[N];
int find(int x)
{
int k = (x % N + N) % N;
while(h[k] != null && h[k] != x) //h[k]上有值且不是x
{
k++; //向后找
//走到数组最后还不能插入的话,就从第一个位置继续
if(k == N) k=0;
}
return k;
}
int main()
{
int n;
cin>>n;
memset(h,0x3f,sizeof(h));
while(n--)
{
char op[2];
int x;
scanf("%s%d", op, &x);
int k = find(x);
if(*op == 'I') h[k] = x;
else
{
if(h[k] != null) cout << "Yes" << endl;
else cout << "No" << endl;
}
}
}
memset(h,0x3f,sizeof(h))将h数组每个元素初始化为0x3f3f3f3f,这个数是大于109的,这样就保证了我们要插入的所有的x都不可能等于初始化的值,当我们要插入的下标位置上存的值为0x3f3f3f3f时,我们才可以将x存入进去。
find(int x) 返回的两种含义:
1、x在哈希表中,函数返回的是 x 在哈希表存存储的位置。
2、x不在哈希表中,x 应该在哈希表存储的位置。