#背景
Sunday算法是Daniel M.Sunday于1990年提出的字符串模式匹配。相对比较KMP和BM算法而言,简单了许多。
#原理
平均性能的时间复杂度为O(n);
最差情况的时间复杂度为O(n * m)。
匹配原理:
从前往后匹配:
- 如果遇到不匹配情况判断母串 dest 参与匹配的最后一位的下一位字符,如果该字符出现在模板串 pattern 中,选择最右出现的位置进行对齐;
- 否则直接跳过该匹配区域。
#分析
假设我们有如下字符串:
var dest = "This is a wonderful city";
var pattern = "wonder";
母串:
This is a wonderful city
模板串
wonder
开始匹配:
1、开始的时候,pos = 0:
i = 0
指向 dest 的第一个字符,j = 0
指向 pattern 的第一个字符,分别为"T"和"w",不相等;
Sunday算法要求,找到位于 dest 字串中位于 pattern 字符串后面的第一个字符,即下图中双向箭头所指向的字符" “(空格符),在模式字符串 pattern 中从后向前查找是否存在字符” “(空格符)。pattern 中不存在空格符,因此将 pos 指向 dest 中空格符所在的位置 7 。
2、此时,pos = 7:
i = 7
指向 dest 位置7处,j = 0
指向 pattern 的第一个字符,分别为” “(空格符)和"w”,不相等;
Sunday算法要求,找到位于 dest 字串中位于 pattern 字符串后面的第一个字符,即下图中双向箭头所指向的字符"d",在模式字符串 pattern 中从后向前查找是否存在字符"d"。模式串 pattern 中存在字符"d",因此将相等的字符对齐。pos 指向对齐时 pattern 的 0 位置处对齐母串 dest 的位置 10 。
3、此时,pos = 10:
i = 10
指向 dest 位置10处,j = 0
指向 pattern 的第一个字符,分别为"w"(空格符)和"w",相等。此时,循环排查是否一一对应,如果一一对应,则说明找到匹配处 pos ;若排查出现不相等,则从那个位置处继续分析。
#完整代码
/**
* Sunday算法
* @param dest 主串
* @param pattern 模式串
* @returns {number} 匹配位置处 或 -1(无匹配)
*/
function sunday(dest, pattern) {
var pos = 0,
destLen = dest.length,
patternLen = pattern.length;
//使用hash方法:用字符编码作为下标保存字符所在位置,这样可以直接得到相匹配的最右边的位置。
var next = [];
for (var i = 0; i < 256; i++){
next[i] = -1;
}
for (var i = 0; i < patternLen; i++){
next[pattern[i].charCodeAt(0)] = i;
}
while (pos < destLen - patternLen + 1) {
for (var i = pos, j = 0; j < patternLen && i < destLen && dest[i] == pattern[j]; i++, j++)
;
if (j == patternLen)
return pos;
else {
if (pos + patternLen < destLen)
pos += (patternLen - next[dest[pos + patternLen].charCodeAt(0)]);
else
return -1;
}
}
return -1;
}
测试:
var dest = "This is a wonderful city";
var pattern = "wonder";
var pos = sunday(dest,pattern); //pos = 10
dest = "here is a example";
pattern = "example";
var pos = sunday(dest,pattern); //pos = 10