模式匹配算法总结

本文参考:
1. http://blog.csdn.net/tukangzheng/article/details/38438481
2. 《算法导论》

模式匹配:子串在主串中的定位

设S为目标串(主串),P为模式串(子串),且不妨设:

S="s0s1s2...sn-1"
P="t0t1t2...tm-1"

1. 暴力匹配算法

串的匹配实际上是对合法位置0<=i<=n-m依次将目标串中的子串S[0…m-1]和模式串P[0…m-1]进行比较:

  • 若S[0…m-1]=P[0…m-1],则称从位置i开始的匹配成功。
  • 若S[0…m-1]!=P[0…m-1],从i开始的匹配失败。

位置i称为位移,匹配成功则i为有效位移,匹配失败则i为无效位移。

//若匹配成功,则返回位置;失败则返回-1.
int ViolentMatch(char* s, char* p)  
{  
    int sLen = strlen(s);  
    int pLen = strlen(p);  

    int i = 0;  
    int j = 0;  
    while (i < sLen && j < pLen)  
    {  
        if (s[i] == p[j])  
        {  
            //①如果当前字符匹配成功(即S[i] == P[j]),则i++,j++      
            i++;  
            j++;  
        }  
        else  
        {  
            //②如果失配(即S[i]! = P[j]),令i = i - (j - 1),j = 0      
            i = i - j + 1;  
            j = 0;  
        }  
    }  
    //匹配成功,返回模式串p在文本串s中的位置,否则返回-1  
    if (j == pLen)  
        return i - j;  
    else  
        return -1;  
}  

2. KMP算法

2.1 定义:

Knuth-Morris-Pratt 字符串查找算法,简称为 “KMP算法”,常用于在一个文本串S内查找一个模式串P 的出现位置。
这个算法由Donald Knuth、Vaughan Pratt、James H. Morris三人同时独立发现,后取这3人的姓氏命名此算法。

其改进在于:
每当一趟匹配过程出现字符不相等时,主串指示器不用回溯,而是利用已经得到的“部分匹配”结果,将模式串的指示器向右“滑动”尽可能远的一段距离后,继续进行比较。

2.2 具体算法:

  • 假设现在文本串S匹配到 i 位置,模式串P匹配到 j 位置
    • 如果j = -1,或者当前字符匹配成功(即S[i] == P[j]),都令i++,j++,继续匹配下一个字符;
    • 如果j != -1,且当前字符匹配失败(即S[i] != P[j]),则令 i 不变,j = next[j]。此举意味着失配时,模式串P相对于文本串S向右移动了j - next [j] 位。
      换言之,当匹配失败时,模式串向右移动的位数为:失配字符所在位置 - 失配字符对应的next 值(next 数组的求解会在下文详细阐述),即移动的实际位数为:j - next[j],且此值大于等于1。
int KmpSearch(char* s, char* p)  
{  
    int i = 0;  
    int j = 0;  
    int sLen = strlen(s);  
    int pLen = strlen(p);  
    while (i < sLen && j < pLen)  
    {  
        //①如果j = -1,或者当前字符匹配成功(即S[i] == P[j]),都令i++,j++      
        if (j == -1 || s[i] == p[j])  
        {  
            i++;  
            j++;  
        }  
        else  
        {  
            //②如果j != -1,且当前字符匹配失败(即S[i] != P[j]),则令 i 不变,j = next[j]      
            //next[j]即为j所对应的next值        
            j = next[j];  
        }  
    }  
    if (j == pLen)  
        return i - j;  
    else  
        return -1;  
}  

2.3 next数组

已知next [0, …, j],如何求出next [j + 1]呢?
对于pattern的前j+1个序列字符:

  • 若pattern[k] == pattern[j],则next[j + 1 ] = next [j] + 1 = k + 1
  • 若pattern[k ] ≠ pattern[j],如果此时pattern[ next[k] ] == pattern[j ],则next[ j + 1 ] = next[k] + 1,否则继续递归重复此过程。 相当于在字符p[j+1]之前不存在长度为k+1的前缀”p0 p1, …, pk-1 pk”跟后缀“pj-k pj-k+1, …, pj-1 pj”相等,那么是否可能存在另一个值t+1 < k+1,使得长度更小的前缀 “p0 p1, …, pt-1 pt” 等于长度更小的后缀 “pj-t pj-t+1, …, pj-1 pj” 呢?如果存在,那么这个t+1 便是next[ j+1]的值,此相当于利用next 数组进行P串前缀跟P串后缀的匹配。
void GetNext(char* p,int next[])  
{  
    int pLen = strlen(p);  
    next[0] = -1;  
    int k = -1;  
    int j = 0;  
    while (j < pLen - 1)  
    {  
        //p[k]表示前缀,p[j]表示后缀  
        if (k == -1 || p[j] == p[k])   
        {  
            ++j;  
            ++k;  
            next[j] = k;  
        }  
        else   
        {  
            k = next[k];  
        }  
    }  
}  
这是一道比较有意思的字符串题目,我们可以使用动态规划来解决。使用 Kotlin 语言来实现,具体思路如下: 定义一个二维布尔数组 `dp[i][j]`,表示 s1 的前 i 个字符和 s2 的前 j 个字符能否交错组成 s3 的前 i+j 个字符。 初始状态:当 s1 和 s2 都为空时,s3 也为空,因此 `dp[0][0] = true`。 状态转移:对于每个 `dp[i][j]`,我们有两种选择: - 如果 `s1[i-1] == s3[i+j-1]`,则可以使用 `s1[i-1]` 来匹配 `s3[i+j-1]`,此时需要判断 `dp[i-1][j]` 是否为 true。 - 如果 `s2[j-1] == s3[i+j-1]`,则可以使用 `s2[j-1]` 来匹配 `s3[i+j-1]`,此时需要判断 `dp[i][j-1]` 是否为 true。 最终的结果为 `dp[s1.length][s2.length]`。 完整的代码如下: ```kotlin fun isInterleave(s1: String, s2: String, s3: String): Boolean { if (s1.length + s2.length != s3.length) { return false } val dp = Array(s1.length + 1) { BooleanArray(s2.length + 1) } // 初始化状态 dp[0][0] = true // 初始化第一行 for (j in 1..s2.length) { dp[0][j] = dp[0][j-1] && s2[j-1] == s3[j-1] } // 初始化第一列 for (i in 1..s1.length) { dp[i][0] = dp[i-1][0] && s1[i-1] == s3[i-1] } // 状态转移 for (i in 1..s1.length) { for (j in 1..s2.length) { dp[i][j] = (dp[i-1][j] && s1[i-1] == s3[i+j-1]) || (dp[i][j-1] && s2[j-1] == s3[i+j-1]) } } return dp[s1.length][s2.length] } ``` 我们可以使用以下代码测试这个函数: ```kotlin fun main() { val s1 = "aabcc" val s2 = "dbbca" val s3 = "aadbbcbcac" val res = isInterleave(s1, s2, s3) println(res) } ``` 输出结果为: ``` true ``` 这说明我们的代码已经正确地判断了 s3 是否是由 s1 和 s2 交错组成的。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值