串的模式匹配
我们有一个主串S和一个子串T,串的模式匹配即为确定主串中所含子串第一次出现的位置(起到定位的效果)。
三种算法
实现串的模式匹配有三种算法,分别是:
- BF算法:又称蛮力匹配算法,从主串S第一个字符开始逐个比较。这种算法是带回溯的,所以,在最坏的情况下,此算法的时间复杂度将会达到O(n^2)。
- KMP算法:是BF算法的改进版,它有效的消除了主串S指针回溯的情况,使时间复杂度为O(n)。
- BM算法:与KMP算法有相似之处:都是消除了主串S指针的回溯,对子串T进行预处理;但是BM算法是做反向比较的,也就是从子串T的最后一个字符与其所对应的主串S的字符进行比较。
第一种蛮力匹配算法就不讲了,主要讲解一下:改进版的KMP算法,和在文本编辑器中广为使用的BM算法。
KMP算法
此算法通过对子串T进行预处理,消除了主串S指针的回溯。
算法思想
举个例子:
S=‘a b c a b c a c b a b’
T=‘a b c a c’
当T和S的指针同时从第一位出发,发现到达第5位时不匹配了,这时如果要求S的指针不回溯,那么,我们就需要知道S所指的第5位应该和子串T的第几位进行比较,才能不会遗漏中间可能匹配的情况。
这时候,我们就会想到,在S所指的第5位的前面,有没有字符与子串T开头的字符相匹配呢?
而在S的第五位前,又与T的第五位前匹配,也就是说,我们要找到子串T的真前缀与真后缀匹配的字符。
举例说明
拿这个例子来说:
S所指的第5位的前一位为a
,而子串T的第1位恰好也为a
,也就是说,S当前第5位可以直接和子串T的第2位比较,减少了比较次数。
而之所以只有子串T的第1位匹配,是因为子串T前4个字符所组成的子串,求出真前缀和真后缀后,发现只有子串长度为1的时候相同,因此只有前1位是与主串S当前指针的前1位相同。
根据预处理,可得:
T a b a b a
j 1 2 3 4 5
next 0 1 1 2 3
1、模式串