KMP算法

最新推荐文章于 2024-02-09 15:37:26 发布

生旦净末灰

最新推荐文章于 2024-02-09 15:37:26 发布

阅读量190

点赞数

分类专栏：算法文章标签：算法 leetcode

原文链接：https://leetcode-cn.com/problems/implement-strstr/solution/kmp-suan-fa-xiang-jie-by-labuladong/

版权

算法专栏收录该内容

12 篇文章 0 订阅

订阅专栏

leetcode ：匹配字符串首坐标

KMP算法

KMP 算法（Knuth-Morris-Pratt 算法）是一个著名的字符串匹配算法，效率很高，较复杂。

题目描述

用 pat 表示模式串，长度为 M，txt 表示文本串，长度为 N。KMP 算法是在 txt 中查找子串 pat，如果存在，返回这个子串的起始索引，否则返回 -1。

暴力解法

暴力解法效率很低，两层循环依次匹配：

而KMP不需要每次匹配失败就从pat头开始，而是记忆性从中间某位置开始重新匹配：

KMP算法概述

KMP 算法永不回退 txt 的指针 i，不走回头路（不会重复扫描 txt），而是借助 dp 数组中储存的信息把 pat 移到正确的位置继续匹配，时间复杂度只需 O(N)，用空间换时间，可以认为它是一种动态规划算法。

KMP 算法的难点在于，如何计算 dp 数组中的信息？如何根据这些信息正确地移动 pat 的指针？这个就需要确定有限状态自动机来辅助了，别怕这种高大上的文学词汇，其实和动态规划的 dp 数组如出一辙，等你学会了也可以拿这个词去吓唬别人。

还有一点需要明确的是：计算这个 dp 数组，只和 pat 串有关。意思是说，只要给我个 pat，我就能通过这个模式串计算出 dp 数组，然后你可以给我不同的 txt，我都不怕，利用这个 dp 数组我都能在 O(N) 时间完成字符串匹配。
在这里插入图片描述
这个j 不要理解为索引，它的含义更准确地说应该是状态（state）。明白了 dp 数组只和 pat 有关，那么我们这样设计 KMP 算法就会比较漂亮：

public class KMP {
    private int[][] dp;
    private String pat;

    public KMP(String pat) {
        this.pat = pat;
        // 通过 pat 构建 dp 数组
        // 需要 O(M) 时间
    }

    public int search(String txt) {
        // 借助 dp 数组去匹配 txt
        // 需要 O(N) 时间
    }
}

状态机概述

我们可以认为 pat 的匹配就是状态的转移。比如当 pat = “ABABC”：
在这里插入图片描述
当此时处于状态4时，下一步的转移状态如下：

我们画状态图时就把其他字符转移到状态 0 的箭头省略，只画 pat 中出现的字符的状态转移：

KMP 算法最关键的步骤就是构造这个状态转移图。要确定状态转移的行为，得明确两个变量，一个是当前的匹配状态，另一个是遇到的字符；确定了这两个变量后，就可以知道这个情况下应该转移到哪个状态。
为了描述状态转移图，我们定义一个二维 dp 数组。传统的 KMP 算法是使用一个一维数组 next 记录前缀信息，而本文是使用一个二维数组 dp 以状态转移的角度解决字符匹配问题，但是空间复杂度仍然是 O(256M) = O(M)。它的含义如下：

dp[j][c] = next
0 <= j < M，代表当前的状态
0 <= c < 256，代表遇到的字符（ASCII 码）
0 <= next <= M，代表下一个状态

根据我们这个 dp 数组的定义和刚才状态转移的过程，我们可以先写出 KMP 算法的 search 函数代码：

public int search(String txt) {
    int M = pat.length();
    int N = txt.length();
    // pat 的初始态为 0
    int j = 0;
    for (int i = 0; i < N; i++) {
        // 当前是状态 j，遇到字符 txt[i]，
        // pat 应该转移到哪个状态？
        j = dp[j][txt.charAt(i)];
        // 如果达到终止态，返回匹配开头的索引
        if (j == M) return i - M + 1;
    }
    // 没到达终止态，匹配失败
    return -1;
}

构建状态转移图

构造 dp 数组的框架就是这样：

for 0 <= j < M: # 状态
    for 0 <= c < 256: # 字符
        dp[j][c] = next

如何求next状态？

如果遇到的字符 c 和 pat[j] 匹配的话，状态就应该向前推进一个，也就是说 next = j + 1，我们不妨称这种情况为状态推进；
如果字符 c 和 pat[j] 不匹配的话，状态就要回退（或者原地不动），我们不妨称这种情况为状态重启。

那么，如何得知在哪个状态重启呢？解答这个问题之前，我们再定义一个名字：影子状态，用变量 X 表示。所谓影子状态，就是和当前状态具有相同的前缀。比如下面这种情况：
在这里插入图片描述
如果状态 j 遇到一个字符 “A”，应该转移到哪里呢？首先只有遇到 “C” 才能推进状态，遇到 “A” 显然只能进行状态重启。状态 j 会把这个字符委托给状态 X 处理，也就是 dp[j][‘A’] = dp[X][‘A’]。
在构建当前状态 j 的转移方向时，只有字符 pat[j] 才能使状态推进（dp[j][pat[j]] = j+1）；而对于其他字符只能进行状态回退，应该去请教影子状态 X 应该回退到哪里（dp[j][other] = dp[X][other]，其中 other 是除了 pat[j] 之外所有字符）。这样，我们就细化一下刚才的框架代码：

int X # 影子状态
for 0 <= j < M:
    for 0 <= c < 256:
        if c == pat[j]:
            # 状态推进
            dp[j][c] = j + 1
        else: 
            # 状态重启
            # 委托 X 计算重启位置
            dp[j][c] = dp[X][c]

代码实现

影子状态 X 是如何得到的呢？

首先，只有遇到 pat[0] 这个字符才能使状态从 0 转移到 1，遇到其它字符的话还是停留在状态 0（Java 默认初始化数组全为 0），即除dp[0][pat[0]],外dp[0][All]都为0 ：

// base case
dp[0][pat.charAt(0)] = 1;

更新影子状态 X：

int X = 0; //初始化0
for (int j = 1; j < M; j++) {
    ...
    // 更新影子状态
    // 当前是状态 X，遇到字符 pat[j]，
    // pat 应该转移到哪个状态？
    X = dp[X][pat.charAt(j)];
}

完整代码

下面来看一下状态转移图的完整构造过程：

完整代码，创建状态转移图和search是相似的：

public class KMP {
    private int[][] dp;
    private String pat;

    public KMP(String pat) {
        this.pat = pat;
        int M = pat.length();
        // dp[状态][遇到字符] = 下个状态
        dp = new int[M][256];
        // base case
        dp[0][pat.charAt(0)] = 1;
        // 影子状态 X 初始为 0
        int X = 0;
        // 构建状态转移图
        for (int j = 1; j < M; j++) {
        	/*for (int c = 0; c < 256; c++) {
                if (pat.charAt(j) == c) 
                    dp[j][c] = j + 1;
                else 
                    dp[j][c] = dp[X][c];
				// 更新影子状态
            X = dp[X][pat.charAt(j)];            
            }
            */
	
            for (int c = 0; c < 256; c++) {
                //每走一步都要通过影子X来决定下一步转移的状态
                dp[j][c] = dp[X][c];
            	dp[j][pat.charAt(j)] = j + 1;
            	// 更新影子状态
            	X = dp[X][pat.charAt(j)];
        }
    }

    public int search(String txt) {
        int M = pat.length();
        int N = txt.length();
        // pat 的初始态为 0
        int j = 0;
        for (int i = 0; i < N; i++) {
            // 计算 pat 的下一个状态
            j = dp[j][txt.charAt(i)];
            // 到达终止态，返回结果
            if (j == M) return i - M + 1;
        }
        // 没到达终止态，匹配失败
        return -1;
    }
}

生旦净末灰

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
KMP算法

leetcode ：匹配字符串首坐标KMP算法 KMP 算法（Knuth-Morris-Pratt 算法）是一个著名的字符串匹配算法，效率很高，较复杂。题目描述用 pat 表示模式串，长度为 M，txt 表示文本串，长度为 N。KMP 算法是在 txt 中查找子串 pat，如果存在，返回这个子串的起始索引，否则返回 -1。暴力解法暴力解法效率很低，两层循环依次匹配：而KMP不...
复制链接

扫一扫

专栏目录