【算法】字符串 hash 进阶

本文为算法的学习总结,讲解字符串 hash。
摘要由CSDN通过智能技术生成

本文为算法的学习总结,讲解字符串 hash。欢迎在评论区与我交流 😃

字符串 hash

字符串 hash 指将一个字符串 S 映射为一个整数,使得整数可以尽可能唯一地代表字符串 S。最直接能想到的方法是将字符串当作二十六进制的数,然后转换为十进制:
H [ i ] = H [ i − 1 ] × 26 + i n d e x [ s t r [ i ] ] H[i] = H[i-1]\times26 + index[str[i]] H[i]=H[i1]×26+index[str[i]]

H[i] 表示字符串前 i 个字符的 hash 值,H[len - 1] 就是整个字符串的 hash 值。

当字符串很长时,整数会超出范围,需要对结果 mod 取模,但这样会增加冲突概率。经验值是将进制数设为一个 1 0 7 10^7 107 级别的素数 p(例如 10000019),同时把 mod 设为一个 1 0 9 10^9 109 级别的素数(例如 1000000007):
H [ i ] = ( H [ i − 1 ] × p + i n d e x [ s t r [ i ] ] ) H[i] = (H[i-1] \times p + index[str[i]]) % mod H[i]=(H[i1]×p+index[str[i]])

例题

下面来看一个问题:给出 N 个只有小写字母的字符串,求其中不同字符串的个数。

思路

如果只用字符串 hash 来做,只需要将 N 个字符串使用字符串 hash 函数转换为 N 个整数,然后排序去重,代码如下。

代码

#include <iostream>
#include <algorithm>
#include <vector>
#include <string>
using namespace std;

typedef long long ll;

const int MOD = 1e9 + 7;
const int P = 1e7 + 19;

vector<ll> ans;

// 字符串 hash
ll hashFunc(string str) {
   
    ll H = 0; // 使用 long long 避免溢出
    for(int i = 0; i < str.length(); ++i)
        H = (H * P + str[i] - 'a') % MOD;
    return H;
}

int main(){
   
    string str;
    while (getline(cin, str), str != "#") {
    // 输入 str 直到 # 时停止
        ll id = hashFunc(str); // 将字符串 str 转换为 整数
        ans.push_back(id)
  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值