一、定义
散列表(Hash table,也叫哈希表),是根据键(Key)而直接访问在内存存储位置的数据结构。也就是说,它通过计算一个关于键值的函数,将所需查询的数据映射到表中一个位置来访问记录,这加快了查找速度。这个映射函数称做散列函数,存放记录的数组称做散列表。
散列函数能使对一个数据序列的访问过程更加迅速有效,通过散列函数,数据元素将被更快定位。
- 直接定址法:取关键字或关键字的某个线性函数值为散列地址。即hash(k)=k 或 hash(k)=a * k+b, 其中a b为常数(这种散列函数叫做自身函数)
- 数字分析法:假设关键字是以r为基的数,并且哈希表中可能出现的关键字都是事先知道的,则可取关键字的若干数位组成哈希地址。
- 平方取中法:取关键字平方后的中间几位为哈希地址。通常在选定哈希函数时不一定能知道关键字的全部情况,取其中的哪几位也不一定合适,而一个数平方后的中间几位数和数的每一位都相关,由此使随机分布的关键字得到的哈希地址也是随机的。取的位数由表长决定。
- 除留余数法:取关键字被某个不大于散列表表长m的数p除后所得的余数为散列地址。即 hash(key)=key mod p,p<=m。p一般取4k+3的素数,若选择不好容易产生冲突。
散列冲突,简单来说,指的是 key1不等于key2 的情况下,通过散列函数处理,hash(key1) == hash(key2),这个时候,我们说发生了散列冲突。设计再好的散列函数也无法避免散列冲突,原因是散列值是非负整数,总量是有限的,但是现实世界中要处理的键值是无限的,将无限的数据映射到有限的集合,肯定避免不了冲突。散列冲突解决方案分为开放地址法 、再散列法 、链地址法。
二、整数hash
问题:给出N个正整数,再给出M个正整数,问这M个数中每个数分别是否再N个数中出现过,其中N,M小于10^5。
最直接的思路是:对每个欲查询的正整数x,遍历所有N个数,看是否有一个数与x相等。这个做法的时间复杂度为0(NM),当N和M很大时可以用空间换时间,设定一个bool型数组hashTable[100010],这样就可以在读入N个正整数可以预处理,即当读入数为x时。这种方法的时间复杂度O(N+M)。
#include<cstdio>
const int maxn = 100010;
bool hashTable[maxn] = {
false };
int main() {
int n, m, x;
scanf("%d%d", &n, &m);
for (int i = 0; i < n; i++) {
scanf("%d", &x);
hashTable[x] = true;//数字x出现
}
for (int i = 0; i < m; i++) {
scanf("%d", &x);
if (<