KMP 算法 (Knuth-Morris-Pratt 字符串匹配算法)


先给代码,有时间了再回来补注释和算法说明。

---------------------------------------------------------------------------

#include <stdio.h>
#include <stdlib.h>
#include <string.h>

const int * get_prefix(const char * P)
{
    int * pi = (int *)malloc(sizeof(int) * strlen(P));
    pi[0] = -1;
    int i = 1;
    int j = -1;
    while (P[i])
    {
        while (j >= 0 && P[j + 1] != P[i])
        {
            j = pi[j];
        }
        if (P[j + 1] == P[i])
        {
            ++j;
        }
        pi[i] = j;
        ++i;
    }
    return pi;
}

void kmp_match(const char * T, const char * P)
{
    const int * pi = get_prefix(P);
    int i = 0;
    int j = -1;
    while (T[i])
    {
        while (j >= 0 && P[j + 1] != T[i])
        {
            j = pi[j];
        }
        if (P[j + 1] == T[i])
        {
            ++j;
        }
        if (0 == P[j + 1])
        {
            printf("%s/n", T + i - j);
            j = pi[j];
        }
        ++i;
    }
    free(pi);
}

int main(int argc, char * argv[])
{
    kmp_match("abcdabcdabcdabcd", "abc");

    return 0;
}


参考:《算法导论》

---------------------------------------------------------------------------

/*
 * Knuth-Morris-Pratt 字符串匹配算法的三种实现。
 * 匹配部分都一样,差异只在求 next 数组。:)
 */

#include <stdio.h>
#include <stdlib.h>
#include <string.h>

/*
 * 实现一
 */
char * kmp1(char * content, char * pattern)
{
    int i;
    int j;
    int len;
    int * next;

    if (NULL == content || NULL == pattern)
    {
        return NULL;
    }

    len = strlen(pattern);
    next = (int *)malloc(len * sizeof(int));

    /* Get the "next" array. */
    next[0] = -1;
    for (i = 1; pattern[i] != 0; ++i)
    {
        j = next[i - 1];
        while (pattern[i - 1] != pattern[j] && j >= 0)
        {
            j = next[j];
        }
        next[i] = j + 1;
    }

    /* Match. */
    i = 0;
    j = 0;
    while (content[i] && pattern[j])
    {
        if (content[i] == pattern[j])
        {
            ++i;
            ++j;
        }
        else
        {
            j = next[j];
            if (-1 == j)
            {
                ++i;
                ++j;
            }
        }
    }

    free(next);

    if (pattern[j])
    {
        return NULL;
    }
    else
    {
        return &content[i - j];
    }
}

/*
 * 实现二
 */
char * kmp2(char * content, char * pattern)
{
    int i;
    int j;
    int len;
    int * next;

    if (NULL == content || NULL == pattern)
    {
        return NULL;
    }

    len = strlen(pattern);
    next = (int *)malloc(len * sizeof(int));

    /* Get the "next" array. */
    next[0] = -1;
    i = 0;
    j = -1;
    while (pattern[i])
    {
        if (-1 == j || pattern[i] == pattern[j])
        {
            ++i;
            ++j;
            next[i] = j;
        }
        else
        {
            j = next[j];
        }
    }

    /* Match. */
    i = 0;
    j = 0;
    while (content[i] && pattern[j])
    {
        if (content[i] == pattern[j])
        {
            ++i;
            ++j;
        }
        else
        {
            j = next[j];
            if (-1 == j)
            {
                ++i;
                ++j;
            }
        }
    }

    free(next);

    if (pattern[j])
    {
        return NULL;
    }
    else
    {
        return &content[i - j];
    }
}

/*
 * 实现三
 *
 * 实现二的改进,改进处见注释。
 */
char * kmp3(char * content, char * pattern)
{
    int i;
    int j;
    int len;
    int * next;

    if (NULL == content || NULL == pattern)
    {
        return NULL;
    }

    len = strlen(pattern);
    next = (int *)malloc(len * sizeof(int));

    /* Get the "next" array. */
    next[0] = -1;
    i = 0;
    j = -1;
    while (pattern[i])
    {
        if (-1 == j || pattern[i] == pattern[j])
        {
            ++i;
            ++j;

            /* 此处是对实现二的改进。 */
            if (pattern[i] == pattern[j])
            {
                next[i] = next[j];
            }
            else
            {
                next[i] = j;
            }
        }
        else
        {
            j = next[j];
        }
    }

    /* Match. */
    i = 0;
    j = 0;
    while (content[i] && pattern[j])
    {
        if (content[i] == pattern[j])
        {
            ++i;
            ++j;
        }
        else
        {
            j = next[j];
            if (-1 == j)
            {
                ++i;
                ++j;
            }
        }
    }

    free(next);

    if (pattern[j])
    {
        return NULL;
    }
    else
    {
        return &content[i - j];
    }
}

int main(int argc, char * argv[])
{
    printf("%s/n", kmp1(argv[1], argv[2]));
    printf("%s/n", kmp2(argv[1], argv[2]));
    printf("%s/n", kmp3(argv[1], argv[2]));

    return 0;
}


参考:
1. 《数据结构 (C 语言版)》,严蔚敏,吴伟民,P79-84
2. 字符串匹配的 KMP 算法详解
3. KMP

---------------------------------------------------------------------------
串匹配是指在一个文本串中查找另一个模式串的过程。常用的串匹配算法有Naïve算法、Rabin-Karp算法Knuth-Morris-Pratt算法。 1. Naïve算法 Naïve算法是最简单的串匹配算法,也称为暴力匹配算法。它的思路是从文本串的第一个字符开始,依次比较文本串中的每个字符是否与模式串中的字符相等。若不相等,则继续向后比较;若相等,则比较下一个字符,直到找到完全匹配的子串或文本串被匹配完为止。 Naïve算法的时间复杂度是O(mn),其中m和n分别是模式串和文本串的长度。当模式串和文本串长度相等时,最坏情况下时间复杂度达到O(n^2)。 2. Rabin-Karp算法 Rabin-Karp算法是一种基于哈希值的串匹配算法。它的思路是先将模式串和文本串都转换为哈希值,然后比较它们的哈希值是否相等。如果哈希值相等,则再逐个比较模式串和文本串中的字符是否相等。这种方法可以有效地减少比较次数,提高匹配效率。 Rabin-Karp算法的时间复杂度是O(m+n),其中m和n分别是模式串和文本串的长度。但是,由于哈希函数的不完全性和哈希冲突的存在,Rabin-Karp算法在某些情况下可能会出现误判。 3. Knuth-Morris-Pratt算法 Knuth-Morris-Pratt算法是一种基于前缀函数的串匹配算法。它的思路是先计算出模式串的前缀函数,然后利用前缀函数的信息来跳过已经匹配过的部分,减少比较次数。 具体来说,KMP算法在匹配过程中维护一个指针i和一个指针j,其中i指向文本串中当前匹配的位置,j指向模式串中当前匹配的位置。如果当前字符匹配成功,则i和j同时向后移动一位;如果匹配失败,则通过前缀函数计算出j需要跳转到的位置,使得前j-1个字符与文本串中的对应字符已经匹配成功,然后将j指向这个位置,i不变,继续比较下一个字符。 KMP算法的时间复杂度是O(m+n),其中m和n分别是模式串和文本串的长度。由于利用了前缀函数的信息,KMP算法可以在最坏情况下达到O(n)的时间复杂度,比Naïve算法和Rabin-Karp算法更加高效。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值