本文为算法的学习总结,讲解字符串 hash。欢迎在评论区与我交流 😃
字符串 hash
字符串 hash 指将一个字符串 S 映射为一个整数,使得整数可以尽可能唯一地代表字符串 S。最直接能想到的方法是将字符串当作二十六进制的数,然后转换为十进制:
H [ i ] = H [ i − 1 ] × 26 + i n d e x [ s t r [ i ] ] H[i] = H[i-1]\times26 + index[str[i]] H[i]=H[i−1]×26+index[str[i]]
H[i]
表示字符串前 i
个字符的 hash 值,H[len - 1]
就是整个字符串的 hash 值。
当字符串很长时,整数会超出范围,需要对结果 mod 取模,但这样会增加冲突概率。经验值是将进制数设为一个 1 0 7 10^7 107 级别的素数 p(例如 10000019),同时把 mod 设为一个 1 0 9 10^9 109 级别的素数(例如 1000000007):
H [ i ] = ( H [ i − 1 ] × p + i n d e x [ s t r [ i ] ] ) H[i] = (H[i-1] \times p + index[str[i]]) % mod H[i]=(H[i−1]×p+index[str[i]])
例题
下面来看一个问题:给出 N 个只有小写字母的字符串,求其中不同字符串的个数。
思路
如果只用字符串 hash 来做,只需要将 N 个字符串使用字符串 hash 函数转换为 N 个整数,然后排序去重,代码如下。
代码
#include <iostream>
#include <algorithm>
#include <vector>
#include <string>
using namespace std;
typedef long long ll;
const int MOD = 1e9 + 7;
const int P = 1e7 + 19;
vector<ll> ans;
// 字符串 hash
ll hashFunc(string str) {
ll H = 0; // 使用 long long 避免溢出
for(int i = 0; i < str.length(); ++i)
H = (H * P + str[i] - 'a') % MOD;
return H;
}
int main(){
string str;
while (getline(cin, str), str != "#") {
// 输入 str 直到 # 时停止
ll id = hashFunc(str); // 将字符串 str 转换为 整数
ans.push_back(id)