【算法】字符串 hash 进阶

最新推荐文章于 2022-12-15 11:16:33 发布

Louis1874

最新推荐文章于 2022-12-15 11:16:33 发布

阅读量502

点赞数 2

分类专栏：数据结构与算法文章标签：字符串算法 hash 哈希表

本文链接：https://blog.csdn.net/weixin_44413191/article/details/108352283

版权

本文为算法的学习总结，讲解字符串 hash。

摘要由CSDN通过智能技术生成

本文为算法的学习总结，讲解字符串 hash。欢迎在评论区与我交流 😃

字符串 hash

字符串 hash 指将一个字符串 S 映射为一个整数，使得整数可以尽可能唯一地代表字符串 S。最直接能想到的方法是将字符串当作二十六进制的数，然后转换为十进制：
$H[i-1]\times26 + index[str[i]]$

H[i] 表示字符串前 i 个字符的 hash 值，H[len - 1] 就是整个字符串的 hash 值。

当字符串很长时，整数会超出范围，需要对结果 mod 取模，但这样会增加冲突概率。经验值是将进制数设为一个 $10^7$ 级别的素数 p（例如 10000019），同时把 mod 设为一个 $10^9$ 级别的素数（例如 1000000007）：
$\times p + index[str[i]]) % mod$

例题

下面来看一个问题：给出 N 个只有小写字母的字符串，求其中不同字符串的个数。

思路

如果只用字符串 hash 来做，只需要将 N 个字符串使用字符串 hash 函数转换为 N 个整数，然后排序去重，代码如下。

代码

#include <iostream>
#include <algorithm>
#include <vector>
#include <string>
using namespace std;

typedef long long ll;

const int MOD = 1e9 + 7;
const int P = 1e7 + 19;

vector<ll> ans;

// 字符串 hash
ll hashFunc(string str) {
   
    ll H = 0; // 使用 long long 避免溢出
    for(int i = 0; i < str.length(); ++i)
        H = (H * P + str[i] - 'a') % MOD;
    return H;
}

int main(){
   
    string str;
    while (getline(cin, str), str != "#") {
    // 输入 str 直到 # 时停止
        ll id = hashFunc(str); // 将字符串 str 转换为 整数
        ans.push_back(id)