Introduction to Algorithm U32字符串匹配

最新推荐文章于 2022-01-02 00:12:42 发布

zpainter

最新推荐文章于 2022-01-02 00:12:42 发布

阅读量224

点赞数

分类专栏：算法文章标签：字符串匹配算法导论

本文链接：https://blog.csdn.net/zpainter/article/details/89351861

版权

4 篇文章 0 订阅

订阅专栏

定义

Naive-String-Matcher
在这里插入图片描述
伪代码：

可以看做是模式沿文本滑动，检测是否对应字符相等。
时间复杂度：
最坏的情况下，朴素字符串匹配算法运行时间为O((n-m+1)m)，即在最后一个偏移时才匹配到，一共n-m+1个偏移，每个偏移还都要做一个m次的循环去检测对应字符是否相等。所以运行时间为O((n-m+1)m)。
问题：忽视了检测无效s值时获得的文本信息。朴素的字符串匹配算法为什么慢？因为它太健忘了，前一次匹配的信息其实可以有部分可以应用到后一次匹配中的，而朴素的字符串匹配算法只是简单的把这个信息扔掉，从头再来，因此，浪费了时间。好好的利用这些信息，自然可以提高运行速度。

在这里插入图片描述
算法原理：

首先对每个偏移下的窗口的中的数字取模，也就是分别计算
23590%13=8
35902%13=9
59023%13=3
……
最后得到8 9 3 11 0 ……7 9 11
计算模式取模后的结果，如P=31415，P%13=7，所以在计算的mod13后的结果中寻找结果为7的窗口，找到了两个，s=6，s=12。然后对于命中的窗口进行重新检验，对应位置相同则为真正出现，否则为伪命中。如果模q足够大，那么这种伪命中点可以尽量少出现，从而使额外测试的代价降低。
那么怎么利用前一个窗口的信息呢？
已知前一个窗后的值如何在常数时间内计算出某个窗口的值？
- 第一个窗后的值为31415，去除最高位，然后乘以10（也就是左移一位），然后加入低位数字2得到14152，也就是下一个窗口的值。
伪代码
复杂度分析
……没看懂……