1月11号学习总结

自习

字符串哈希算法

字符串的哈希算法,通俗的理解,就是将一个字符串,转化成整数

主要用途——字符串匹配                                  

原来我们进行字符串匹配的时候,就是一个个去匹配,那么时间复杂度是o(n),如果转化成数字,去匹配那么时间复杂度会变成o(1)。

将模式串通过hash函数转换成一个整数,将主串中的一个个子串也通过hash函数转换成一个个数,只要模式串转换成的数与一个个子串转换成的数中的某一个数相等,则说明主串包含模式串

怎么去把一串字符串转换成一个整数?想一下十六进制转换,嗯没错,就是通过进制转换来将字符串转换成一个整数的。

将一个字符串转换成一个哈希值:

ull hhash(char *arr) { //将字符串arr转换为base进制的整数
	int base = 131; //base最好设置为131 1331 13331 133331这几种,因为出错的概率较小,转换为base进制
	ull ans = 0;//转换之后的答案ans可能会非常大,当ans超过unsigned long long的取值范围溢出时就相当于系统自动帮你进行2的64次方取模运算
	for (int i = 0; i < strlen(arr); i++) {
		ans = ans * base + arr[i] - 'a' + 1;//可以直接写ans*base+arr[i]的,写成这样的话arr中字符的ASCIL码值需小于字符a
	}
	return ans;
}

一个字符串的哈希预处理

void Hash(char *str) { //预处理求str(str的有效字符下标范围为[1~strlen(str)])各[1~i]子串的hash值转换为base进制
	q[0] = 1;//初始化权值
	h[0] = 0; //存储数组初始化
	int p = 131; //base最好设置为131 1331 13331 133331这几种,转换为p进制
	for (int i = 1; i <= strlen(str); i++) {
		h[i] = h[i - 1] * p + str[i];
		q[i] = q[i - 1] * p;
	}
	//p[i] 是记录第i位字符的权值
	//str的[i~j]子串区间的hash值=h[j]-h[i]*q[j-i+1],由get_hash函数求得
}

获取字符串[i~j]区间的哈希值

ull get_hash(int l, int r) {//字符串的有效字符下标范围为[1~strlen(str)]
	return l ? h[r] - h[l - 1] * q[r - l + 1] : h[r]; //l为0时单独考虑
}

 获取字符串[i~j]区间的例子

/*
	例如:          h[i] = h[i - 1] * p + str[i]   q[i] = q[i - 1] * p      
	  前缀
	  A             A*p^0                                 h[1]=65
	  AB            A*p^1+B*p^0                           h[2]=h[1]*p+66
	  ABC           A*p^2+B*p^1+C*p^0                     h[3]=h[2]*p+67
	  ABCD          A*p^3+B*p^2+C*p^1+D*p^0               h[4]=h[3]*p+68
	  ABCDE         A*p^4+B*p^3+C*p^2+D*p^1+E*p^0         h[5]=h[4]*p+69
	  
	  下标:    0 1 2 3 4 5
	              A B C D E
       求2~4的字符串str区间BCD的hash值
       h[r] - h[l - 1] * q[r - l + 1]
	   ans=h[4]-h[1]*q[4-2+1]
	      =h[4]-h[1]*p^3
		  =A*p^3+B*p^2+C*p^1+D*p^0-(A*p^0)*p^3
	      =A*p^3+B*p^2+C*p^1+D*p^0-A*p^3
		  =B*p^2+C*p^1+D*p^0                        				       
	*/

总的代码:

#include<stdio.h>
#include<string.h>
#define LEN 12000
typedef unsigned long long ull;//缩写数据类型的声明
char arr[LEN];
ull h[LEN], q[LEN]; //一定要注意数据类型
void Hash(char *str) { //预处理求str(str的有效字符下标范围为[1~strlen(str)])各[1~i]子串的hash值转换为base进制
	q[0] = 1;//初始化权值
	h[0] = 0; //存储数组初始化
	int p = 131; //base最好设置为131 1331 13331 133331这几种,转换为p进制
	for (int i = 1; i <= strlen(str); i++) {
		h[i] = h[i - 1] * p + str[i];
		q[i] = q[i - 1] * p;
	}
	//p[i] 是记录第i位字符的权值
	//str的[i~j]子串区间的hash值=h[j]-h[i]*q[j-i+1],由get_hash函数求得
}
ull get_hash(int l, int r) {//字符串的有效字符下标范围为[1~strlen(str)]
	return l ? h[r] - h[l - 1] * q[r - l + 1] : h[r]; //l为0时单独考虑
}

ull hhash(char *arr) { //将字符串arr转换为base进制的整数
	int base = 131; //base最好设置为131 1331 13331 133331这几种,转换为base进制
	ull ans = 0;//转换之后的答案ans可能会非常大,当ans超过unsigned long long的取值范围溢出时就相当于系统自动帮你进行2的64次方取模运算
	for (int i = 0; i < strlen(arr); i++) {
		ans = ans * base + arr[i] - 'a' + 1;//可以直接写ans*base+arr[i]的,写成这样的话arr中字符的ASCIL码值需小于字符a
	}
	return ans;
}

 

刷题

【模板】字符串哈希

【模板】字符串哈希 - 洛谷

题目描述

如题,给定 NN 个字符串(第 ii 个字符串长度为 MiMi​,字符串内包含数字、大小写字母,大小写敏感),请求出 NN 个字符串中共有多少个不同的字符串。

友情提醒:如果真的想好好练习哈希的话,请自觉。

输入格式

第一行包含一个整数 NN,为字符串的个数。

接下来 NN 行每行包含一个字符串,为所提供的字符串。

输出格式

输出包含一行,包含一个整数,为不同的字符串个数。

输入输出样例

输入 #1

5
abc
aaaa
abc
abcc
12345

输出 #1

4

说明/提示

对于 30%30% 的数据:N≤10N≤10,Mi≈6Mi​≈6,Mmax≤15Mmax≤15。

对于 70%70% 的数据:N≤1000N≤1000,Mi≈100Mi​≈100,Mmax≤150Mmax≤150。

对于 100%100% 的数据:N≤10000N≤10000,Mi≈1000Mi​≈1000,Mmax≤1500Mmax≤1500。

样例说明:

样例中第一个字符串(abc)和第三个字符串(abc)是一样的,所以所提供字符串的集合为{aaaa,abc,abcc,12345},故共计4个不同的字符串。

Tip: 感兴趣的话,你们可以先看一看以下三题:

BZOJ3097:http://www.lydsy.com/JudgeOnline/problem.php?id=3097

BZOJ3098:http://www.lydsy.com/JudgeOnline/problem.php?id=3098

BZOJ3099:http://www.lydsy.com/JudgeOnline/problem.php?id=3099

如果你仔细研究过了(或者至少仔细看过AC人数的话),我想你一定会明白字符串哈希的正确姿势的^_^

 算法:哈希

思路:很简单的模板题,将给出的一个个字符串通过哈希函数转换成一个个整数,不同整数的个数就是不同字符串的个数

代码

#include<stdio.h>
#include<string.h>
typedef unsigned long long ull;//缩写数据类型的声明
ull hhash(char *arr, int base) { //将字符串转换为base进制,arr中字符的ASCIL码值小于字符a
	ull ans = 0;//转换之后的答案ans可能会非常大,当ans超过unsigned long long的取值范围溢出时就相当于系统自动进行2的64次方取模运算
	for (int i = 0; i < strlen(arr); i++) {
		ans = ans * base + arr[i] ;
	}
	return ans;
}
ull jo[12000];//储存不同字符串的hash值
int numjo = 0;//不同字符的数量
int main() {
	int n;
	scanf("%d", &n);
	for (int i = 0; i < n; i++) {
		getchar();
		char temp[1501];
		scanf("%s", temp);
		ull bn = hhash(temp, 23);//计算转换后的值,转为23进制
		int flag = 0;
		for (int i = 0; i < numjo; i++) {
			if (bn == jo[i]) {//该字符出现过
				flag = 1;
				break;
			}
		}
		if(flag==0){//该字符串出现过
			jo[numjo++]=bn;
		}
	}
	printf("%d",numjo);
}

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值