模式串匹配的概念
如上图所示,第一个字符串通常称为主串,第二个字符串通常成为子串或模式串,所谓,模式串匹配就是寻找主串中是否存在模式串。通常有两种解法。暴力匹配、KMP算法。
暴力匹配
第一个字母匹配成功,紧接着匹配第二个字母,第二个字母匹配失败,则将字串向后
移动一个单位继续匹配。直到匹配溢出,
但是,暴力匹配算法存在明显的效率低的问题。当进行如下匹配时,每次都是最后一个字
母匹配失败,当字串向后移动一格后,还需要继续重新匹配。出现匹配效率低下的问题。
KMP算法:
第一步:列出字串的所有子集串,以第一张图为例,其字串的子集串如图二:
第二步:求前序列表,即求每个子集串的前序串和后序串相等的字符个数
的最大值。如图三所示。注意,前序或者后序字符串的长度不能大于子集串的长
度
第三步:去掉子集串等于模式串的那一行,并在第一行添加-1。如图三。图三左边
的一列数字称为该子集串的前序表。
第四步:进行匹配:过程如图四所示。蓝色方框中,第一行数字为模式
串的元素下标,第二行数字为前序表。逐字符进行匹配,当无法匹配时,
则根据前序表的值将下表与前
序值相等的元素移动到该处,并从该处继续进行匹配。直至匹配结束。
(当不匹配处的前序表中的值为-1时,则将下表索引处的值平移到该处,
相当于子集串向前一定一个单位)