KMP算法是解决字符串匹配的常用算法之一,也就是在主串中的子串定位问题,如果子串在一个主串的T位置出现,就返回它的具体位置。
1.最基础的模式匹配方法(BF算法)
思路:从左到右一个一个的匹配,如果这个过程中有某个字符不匹配,将子串向右移动一位,继续从左到右一一匹配。
当匹配到第四个字符的时候,匹配失败,子串后移,继续匹配
第一位匹配失败 子串继续后移
第一位匹配失败 子串继续后移
直到匹配成功
代码实现
package edu.KMP;
public class 一般匹配 {
public static int BF(String mainStr,String patStr){
//将两个字符串变成字符数组
char[] m = mainStr.toCharArray();
char[] p = patStr.toCharArray();
int i = 0;//主串的位置
int j = 0;//子串的位置
while (i < m.length && j < p.length){
if(m[i] == p[j]){//如果两个字符相同 就比较下一个
i++;
j++;
}else {
i = i - j + 1;//一旦不匹配,i后退,j归0
j = 0;
}
}
if(j == p.length){
return i - j;
}else {
return -1;
}
}
public static void main(String[] args) {
String mainStr = "ABCABCEFG";
String patStr = "ABCE";
int index = BF(mainStr,patStr);
System.out.println(index);
}
}
2.KMP算法
显然上面的BF算法匹配的效率比较低下,因为它每一次匹配都要回溯i指针;
而在KMP算法中,每当一次字符匹配过程中出现字符比较不相等的时候,不需要回溯i指针,而是利用已经得到的“部分匹配”的结果将模式向右“滑动”尽可能远的一段距离后,继续进行比较。
KMP在遇到下面的位置时候,不会直接把子串的j归0,主串的i再移动到第一位,然后进行比较。
从图中可以看到,即使主串后移一位。子串的前三位ABC与主串的BCA必然是不会匹配的,所以应该r让i的位置不变,让j=0;如图:
显然从这里匹配,省去可乐前面的其它无用匹配。
那么KMP的思想就是:利用前面匹配的信息,保持i指针不变,通过修改j指针,让子串尽量的移动到有效的位置 ;
整个KMP的重点就在于当某一个字符与主串不匹配的时候,j指针应该如何移动?
如图C和D不匹配了,应该把j移动到第一位,因为前面有一个相同的A可以用;j=1
再比如:
应该把j指针移动到第2位,因为前面有两个字母AB是一样的j=2
当匹配失败的时候,j变成k
k值是当前j位置之前的字符串前缀与后缀集合中交集中最长元素的长度。
如下图下一次移动j=1的原因是:(对于“ABA"来说,它的前缀集合是{A,AB},后缀集合是{BA,A},交集中元素的最长长度是1,所以下一次移动的j=1)
再比如:下一次移动j=2的原因是(ABCAB的前缀集合是{A,AB,ABC,ABCA},后缀集合是{BCAB,CAB,AB,B},前后缀的交集是AB,长度是2,所以下一次移动的j=2)
所以需要求得p串的每个下标元素对应的k值即可,因为在p的每一个位置都可能发生不匹配。要计算出每一个位置对应的k,所以用一个数组next来保存k值,next[j]=k,表示当m[i]!=p[i]时,j应当变成k;
KMP算法的实现代码:
package edu.KMP;
public class KMP算法 {
public static int [] getNext(String patStr){
char [] p = patStr.toCharArray();
int [] next = new int[p.length];
next[0] = -1;
int j = 0;
int k = -1;
while (j < p.length - 1){
if(k == -1 || p[j] == p[k]){
next[++j] = ++k;
}else {
k = next[k];
}
}
return next;
}
public static int KMP(String mainStr,String patStr) {
//将两个字符串变成字符数组
char[] m = mainStr.toCharArray();
char[] p = patStr.toCharArray();
int i = 0;//主串的位置
int j = 0;//子串的位置
//求k,也就是j下一次需要移动的位置
int[] next = getNext(patStr);
while (i < m.length && j < p.length){
if(j == -1 || m[i] == p[j]){//当j=-1的时候,要移动的是i,当然j也要归0
i++;
j++;
}else {
j = next[j];
}
}
if(j == p.length){
return i - j;
}else {
return -1;
}
}
public static void main(String[] args) {
String mainStr = "ABCABCEFG";
String patStr = "ABCE";
int index = KMP(mainStr,patStr);
System.out.println(index);
}
}