最近看了一下字符串匹配的知识,在这里总结一下。在算法导论中作者给出了四种字符串匹配算法,这里给出两种最常用的字符串匹配算法:朴素字符串匹配算法和KMP算法
- 朴素字符串匹配算法
假设文本是一个长度为n的数组T[1…n],而模式是一个长度为m的数组P[1…m]。朴素的字符串匹配算法,不需要预处理操作,其复杂度是O((n-m+1)*m)。这里直接给出该方法的算法和Java实现。
naive-string-matcher(T,P)
1 n = T.length
2 m = P.length
3 for s = 0 to n - m
4 if P[1...m] == T[s+1...s+m]
5 print "Pattern occurs with shift" s
3~5行考察每个可能得偏移量,第4行监测代码包括了一个循环结构,该循环可以检测对应位置上的字符,直到所有的位置能够成功匹配或者有一个位置不能匹配为止。该算法最终返回的是匹配位置的下标或者-1。
public int naiveStringMatcher(char[] s, char[] p, int pos){
/*
* s是文本,p是模式, 求p在主串s中从第pos个位置开始的匹配位置
* 如果匹配成功返回模式串在主串中的位置,否则返回-1
*/
for (int i = 0; i < s.length; i++) {
if(s[i] == p[0]){
int j = 1;
for(; j < p.length; j++){
if(s[i + j] != p[j])break;
}
if(j >= p.length) return i;
}
}
return -1;
}
KMP算法
KMP算法又被称为改进的模式匹配算法,其改进之处在于:每当匹配过程中出现相比较的字符不相等时,不需要回溯主串的字符位置指针,而是根据自己已经得到的部分匹配的结果,将模式串向右滑动尽可能远的距离,然后,进行下一轮比较。
在KMP算法中,依靠模式串的next函数值实现指针的滑动。next函数定义如下:
//next function
public void getNext(char[] p, int[] next){
int i = 0, j = -1, len = p.length;
next[0] = -1;
while(i < len){
if(j == -1 || p[i] == p[j]){
++i;
++j;
if(i < len)
next[i] = j;
}else j = next[j];
}
}
//KMP algorithm
public int KMP(char[] s, char[] p, int pos, int next[]){
/*
* 使用模式串p的next函数,求p在主串s中从第pos个位置开始的匹配位置
* 如果匹配成功返回模式串在主串中的位置,否则返回-1
*/
int i = pos - 1, j = -1, slen = s.length, plen = p.length;
while(i < slen && j < plen){
if(j == -1 || s[i] == p[j]){
i++;
j++;
}else j = next[j];
}
if(j >= plen) return i - plen;
else return -1;
}
具体的next的演算请参考:http://kb.cnblogs.com/page/176818/