实例
- 对于文本串 aabaabaaf ,模式串 aabaaf 的匹配问题。
字符串匹配基本概念
- 前缀:包含首字母,不包含最后一位字母的所有子串
- 后缀:包含尾字母,不包含首字母的所有子串
- 对于子串 aabaaf :
- 前缀为:a, aa, aab, aaba, aabaa;
- 后缀为:f, af, aaf, baaf, abaaf.
- 最长相等前后缀长度:
- a:0
- aa:1
- aab:0
- aaba:1
- aabaa:2
- aabaaf:0
- 由此可知,模式串 aabaaf 的前缀表为(0,1,0,1,2,0),也是next数组。
- next数组:告诉我们发生冲突时,要回退到哪里。
- next数组的三种方式:
- 前缀表原封不动。(本篇文章采用此类next数组讲解:即前缀表与next数组相同)
- 将前缀表整体右移。
- 将前缀表整体减一。
使用next数组匹配
- 索引值:|0 |1|2|3|4|5|6|7|8|
- 文本串:|a |a|b|a|a|b|a |a |f|
- 模式串:|a |a|b|a|a|f |
- 前缀表:|0 |1|0|1|2|0 |
- 索引从 0 (a)开始匹配,文本串和模式串连续匹配索引 1(a), 2(b),3(a),4(a),一直到索引为 5 的位置,文本串为b,模式串为f,出现不匹配。
- 当索引 j 冲突出现时,模式串索引应回退到 (前缀表)next[j - 1] 的位置:即模式串从索引为2处重新匹配。此时,文本串索引仍位于冲突处,即为5.
- 从文本串索引5,匹配模式串索引2,依次向后匹配,匹配完成。即在文本串中找到模式串。
如何用代码求 next 数组
- 基本步骤
- 初始化next [ 0 ] = 0,j = 0
- 处理前后缀不相同的情况
- 处理前后缀相同的情况
- 更新 next 数组
- 代码 i,j 含义
- i:指向后缀末尾位置。
- j:指向前缀末尾位置。同时也代表了 i 之前(包括 i ),子串最长相等前后缀长度。
void getNext (int* next, const string& s){
//初始化
next[0] = 0;
int j = 0;
for(int i = 1;i < s.size(); i++){
// 处理前后缀不相同的情况
while(j > 0 && s[i] != s[j]) { // while:连续回退;j > 0 :回退起点
j = next[j - 1]; // 当前后缀末尾不匹配时,j向前会退:前一位next数组所对应的值就是它要回退的下标
}
// 处理前后缀相同的情况
if(s[i] == s[j]) {
j++; // 最长相等前后缀长度,相等则+1
}
// 更新next数组
next[i] = j;
}
}