RabinKap
滚动hash法
- 对目标字符串按d进制求值,mod h 取余作为其hash
- 对源串,依次求出m个字符的hash,保存在数组中(滚动计算)
- 匹配时,只需比对目标串的hash值和预存的源串的hash值表
public class RabinKap {
final static long seed = 31; //定义一个种子数
public static void main(String[] args) {
String s = "ABABABA";
String p = "ABA";
match(p, s);
}
/**
* @param p模式串
* @param s源串
*/
private static void match(String p,String s){
long hash_p = hash(p);//p的hash值
long[] hashOfS = hash(s,p.length());//得到hash数组
for(int i = 0;i<hashOfS.length;i++){//扫描数组
if (hashOfS[i]==hash_p){
System.out.println("match:" + i);
}
}
}
/**
* 用滚动的方法求出S中长度为n的每个子串的hash,组成一个hash数组
* @param s
* @param M 子串的长度
* @return
*/
static long[]hash(final String s,final int M){
long[] res = new long[s.length()-M+1];
//前m个字符的hash
res[0] = hash(s.substring(0,M));
for(int i = M;i<s.length();i++){
char newChar = s.charAt(i);//新增字符
char ochar = s.charAt(i-M);//旧字符
//前m个字符的hash*seed-前m字符的第一字符*seed的M次方
//由于取得的值可能比较大,对所有取得的hash值对Long.MAX_VALUE取余;
long v = (res[i-M]*seed - ex2(seed,M)*ochar+newChar)%Long.MAX_VALUE;
res[i-M+1] = v;
}
return res;
}
/**
* 获得模式串的hash值
* 使用100000个不同字符串产生的冲突数,大概在0~3波动,使用100万不同的字符串,冲突数大概110+范围波动
* @param str
* @return
*/
static long hash(String str){
long h = 0;
for(int i = 0;i !=str.length();i++){
h = seed*h+str.charAt(i);
}
return h%Long.MAX_VALUE;
}
/**
* 此方法为巧算n的m次幂
* m=1010
*/
public static long ex2(long n, long m) {
if (n == 0) return 1;
long pingFangShu = n; //n 的 1 次方
long result = 1;
while (m != 0) {
//遇1累乘现在的幂
if ((m & 1) == 1)
result *= pingFangShu;
//每移位一次,幂累乘方一次
pingFangShu = pingFangShu * pingFangShu;
//右移一位
m >>= 1;
}
return result;
}
}``
滚动hash法,在计算hash值的时候可能会出现不准确,测试得出使用100000个不同字符串产生的冲突数,大概在0~3波动,使用100万不同的字符串,冲突数大概110+范围波动.如果要优化可以在模式串与hash数组比对时运用朴素比对法进行比对即可.