KMP算法

最新推荐文章于 2022-11-03 21:50:23 发布

yuezhifengming

最新推荐文章于 2022-11-03 21:50:23 发布

阅读量313

点赞数

分类专栏：数据结构文章标签： kmp 算法数据结构面试

本文链接：https://blog.csdn.net/yuezhifengming/article/details/48423365

版权

数据结构专栏收录该内容

1 篇文章 0 订阅

订阅专栏

今天去面试华为，面试官要求写个子串匹配，求出母串中所有子串出现的首位置，我用了两个i和j两个for循环，在j中修改了i的值，被面试官说道这种耦合的代码不是科班生写出来的，被糊了一脸结束了技术面试。挂在了华为一面的羞耻墙上。

总归是自己心态和水平不够。以前也不爱写博客，写下这个，当做笔记提醒自己。

好了，来正文。

KMP算法的诀窍在于在将子串与自己匹配，算出了匹配不成功时子串（模式串）开始匹配的位置，即模式串相对于普通for循环开始的下一个位置向右滑动的长度。我知道有些绕口。关于普通for循环开始的下一个位置是哪个位置，可以参考

http://blog.csdn.net/joylnwang/article/details/6778316

博客的第二个图，给出了每次模式串匹配的具体首位置和匹配不成功的结束位置。

你可以这么想，在母串S和模式串T比较过程中，当它一直可以比较到模式串结束，那自然是找到了模式串出现的位置。如果从模式串的0位置比较到K位置，而下一个位置K+1位置字母比较失败，即S[某个位置X]！=T[K+1],事实上，从X-K-2位置到X-1位置的字母我们是知道的，就是模式串0到K的字母，因为它们一直匹配到K时一直是成功的。而且，这个长度K+1（从0到K嘛）肯定小于模式串的长度，因为它匹配失败了，没有到末尾。

这个有什么用呢。本来，按照for循环方法，你要回到X-K-1位置从模式串的0位置开始匹配，而现在不用了。我们有了X前的K+1个元素，完全可以从现在的X位置开始继续匹配，唯一要考虑的是模式串要从哪个位置开始比较。这个位置肯定是X前的连续N个元素和模式串的前N个元素是一样的。（模式串匹配就是要子串与模式串一致啊，这个应该是我强行解释一波了）。这个N应该在0到K范围内尽可能的大，什么意思呢，假如模式串是ababdea，而已在母串中匹配到的是ababa，X位置是最后一个a，它与模式串中的d匹配失败，那么与它匹配的模式串字母有可能是位于0位置的第一个a，也有可能是2位置的第二个a,当然应该是第二个。

为什么N<=K，因为匹配不成功的话母串X位置不变，但子串在左移啊。

那么问题来了，这个N的大小是多少。这个就是KMP算法中的next[]了，每个i对应位置的N即是next[i]。

前面说到，匹配不成功的话，X-K-2到X-1位置的元素我们是知道的，就是模式串0位置到K位置的元素。那么X位置对应的N，不就是K+1位置对应的N吗。那么，我们只需要将模式串T每个元素的N值求出来，就可以在匹配时使用，而不用*求母串S*每个元素的N值。这脑洞，一般人没这么大，D.E.Knuth，J.H.Morris和V.R.Pratt这种天才和普通人就是不一样。

那么，这个求母串S每个元素的N值，即next[]的方法，就是我们一开始说的子串与自身的匹配。这么说是模糊且不负责任的。大家想想，如果后一个元素与前一个元素相同，那么后一个元素的N值比前一个大1，像是aaaab匹配到b失败，那么模式串是aaaa???…对不对，那么b匹配的位置应该由第一个？的4变成3。这里前后相同元素的大小关系就很清晰了。这里有个大脑洞，就是i位置的元素决定了next[i+1]的值，因为比较是从第二个元素与第一个元素比较开始，这个脑洞大家好好琢磨琢磨。

那么模式串要是不是连续等值怎么办。那么很明显，i位置能决定的next[i+1]是由next[i]与i位置元素是否等值决定的（多想想N的定义）。如果等值，说明可以在next[i]的后一个位置元素与模式串的i位置匹配，那么next[i+1]自然就是next[i]+1；这个是回到了N的定义，即i+1位置前的N个元素与0到N-1位置的N个元素相等。

这里留点空间多想一想。

那如果i位置元素与next[i]不等，那么N要前移，注意，由定义来，N前一个元素则是next[next[i]]。直到next[某个次数的递归]==i，或是直接递归到模式串第一个元素next[0]才会结束，这才能决定next[i+1]的值。

我使用的是java，所以位置都是从0开始，与清华大学严蔚敏先生与吴伟明先生编写的数据结构教材有些区别。

说到这里，KMP算法就差不多了。回到那句话，KMP是模式串与自身匹配达到每次匹配模式串左移长度的算法，即next[]。下面贴上java实现代码，请各位斧正。其实就是教材上的代码，但c语言并没有相关的字符串结构，也是我对此书怀有诟病的原因。代码清晰但当初不会实现，以至于老是觉得自己理解还行但其实并没有掌握。今日之羞耻，虽不过一笑，还是可惜。也警戒诸位学弟学妹，万万不要当时觉得似是明了就完事大吉，学到的东西还是要练习才能掌握。也希望处于经济不景气的今年的我找工作顺利。

public class KMP {
    static void get_next(String T,int next[]){
        int i=0;
        int j=-1;
        next[0]=-1;
        while(i<T.length()-1){
            if(j==-1||T.charAt(i)==T.charAt(j)){
                i++;
                j++;
                next[i]=j;
            }
            else j=next[j];
        }
    }
    static  int Index_KMP(String S,String T,int pos,int next[]){
        int i=pos;
        int j=0;
        while(i<S.length()&&j<T.length()){
            if(j==-1||S.charAt(i)==T.charAt(j)){
                i++;
                j++;
            }
            else j=next[j];
        }
        if(j>=T.length()) return i-T.length();
        else return -1;
    }
    public static void main(String[] args) {
    //  int[] next=new int[1000];
    //  String S="aghajghagkjhasigfwasdgh";
    //  String T="agkjha";
    //  get_next(T,next);
    //  System.out.println(Index_KMP(S,T,0,next));
    }

}