浅析字符串哈希

最新推荐文章于 2022-06-01 16:24:25 发布

南判

最新推荐文章于 2022-06-01 16:24:25 发布

阅读量303

点赞数 1

分类专栏： Algorithm 文章标签：字符串哈希

本文链接：https://blog.csdn.net/weixin_45951804/article/details/104355525

版权

Algorithm 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

Catalogue

何为字符串哈希

所谓字符串哈希，即对一个字符串形成单向加密的过程，使其产生一个数字映射，通过这种低概率的编号重复，使得字符串的匹配尽可能高效。

如何字符串哈希

最普遍的字符串哈希方式，即进制哈希。核心是将字符串上的每一个字符理解为一个数字，然后固定一个进制，将该字符串转化成一个该进制下的的数，作为其哈希值，然后通过比对哈希值，判断两个字符串是否相等。

	len = (int)strlen(s + 1);
	for (int i = 1; i <= len; i++)
	{
		Hash[i] = (Hash[i - 1] * base + s[i] - 'a' + 1) % mod1;
	}
}

而对于再好的哈希，也不可避免会产生冲突，此时可以通过一些方法来尽可能降低哈希冲突。

1.无错哈希

原理就是当一个字符串得到一个哈希值后，判定该哈希值是否已经使用过，如果使用的话就不断加上一个大质数，使得不产生冲突。该方式的缺陷在于会十分消耗空间。

2.多重哈希

给定不唯一的哈希函数，对每一个字符串生成多个哈希值，由此来判断两个字符串是否相等。该方法会增加空间和时间，但也提高了正确性。

3.子串哈希

数组 $\;Hash\;$ 记录了字符串每个前缀的 $\;Hash\;$ 值，通过 $\;Hash\;$ 数组可以在 $\;O\left ( 1\right)$ 内计算出其子串的 $\;Hash\;$ 值，计算公式为：
$Hash\left [ l...r \right]=\left ( \left ( Hash\left [ r \right]-Hash\left [ l-1 \right]*base^{r-l+1} \right)\%mod+mod \right)\%mod$
这里之所以 $\;+mod\;$ 是因为考虑到前面的减法可能会产生负数，所以 $\;+mod\;$ 进行修正。

4.进制哈希

对于一个字符串而言，可以同样预处理的 $\;Hash\;$ 值在 $\;O(1)\;$ 的时间内得到一个子串的 $\;Hash\;$ 值，那么子序列的 $\;Hash\;$ 值如何计算呢？换句话说，多个子串拼接而成的新字符串的 $\;Hash\;$ 值该如何求解。这里就要理解 $\;Hash\;$ 函数的含义—— $\;Hash\;$ 函数是将一个字符串映射为一个 $\;k\;$ 进制数的过程，所以当我们想得到 $s_ls_{l+1}...s_{x-1}s_{x+1}...s_{r-1}s_r\;$ 的 $\;Hash\;$ 值时，只需要将得到 $\;Hash[l...x-1]\;$ 左移 $\;r-x\;$ 位，然后再放入 $\;Hash[x+1...r]\;$ 即可。即 $Hash[s_l...s_{x-1}s_{x+1}...s_r]=Hash[s_l...s_{x-1}]*base^{r-x}+Hash[s_{x+1}...s_r]\;$