大话数据结构读书笔记—串
标签(空格分隔): 数据结构 读书笔记
串
串是由零个或多个字符组成的有限序列,又名字符串。一般记为 s=”a1a2….an”(n>=0) n又称为串的长度
空串是指零个字符组成的串,可以用“”或者希腊字母表示
空格串是指只包含空格的串,可以不止一个空格
串的比较—朴素的模式匹配算法
//返回子串T在主串S中第pos个之后的位置
//T非空,1<=pos<=StrLength(S)
//子串和主串的长度分贝储存在T[0]和S[0]中
int Index(String S,String T,int pos)
{
int i=pos;
int j=1;
while(i<=S[0] &&j<=T[0])//可能由于pos,S先循环到最后,所以有代码之后的判断j>T[0]
{
if(S[i]==T[j])
{
++i;
++j;
}
else
{
i=i-j+2;//i退回上次匹配首位的下一位
j=1;//j退回子串T的第一位
}
}
if(j>T[0])//匹配成功
return i-T[0];
else
return 0;
}
最好的情况时间复杂度O(1); 例如在googlegood中匹配google
最坏的情况O((n-m+1)*m) 例如在000000000000000000000001中匹配000000001
串的匹配—KMP匹配模式算法
我们把子串T各个位置j值得变化定义为一个next数组:j指每次匹配失败应该回溯到子串的位置(j从1开始,每个字符++j)
next[j]=0;当j=1时;
next[j]=max{k |k大于1,小于 j ,且”p1…p(k-1)”=”p(j-k+1)…p(j-1)”}; 当此集合不为空时;(即如果前后缀一个字符相等,k=2,两个字符相等,k=3,n个字符相等k=n+1);
next[j]=1;其他情况;
例如对于T=”ababaaaba”:
j:123456789
T:ababaaaba
next[j]:011234223
得到next数组的代码
void get_next(String T,int *next)
{
int i,j;
i=1;
j=0;
next[1]=0;
while(i<T[0])
{
if(j==0||T[i]==T[j])//T[i]表示后缀的单个字符,T[j]表示前缀的单个字符
{
++i;
++j;
next[i]=j;
}
else
{
j=next[j];//若字符不想等,j值回溯
}
}
KMP算法的代码
int Index_KMP(String S,String T, int pos)
{
int i=pos;
int j=1;
int next[255];//定义一个next数组
get_next(T,next);
while(i<=S[0]&&j<=T[0])
{
if(j==0||S[i]==T[j])
{
++i;
++j;
}
else
{
j=next[j];//j值回溯到合适的位置,i值不变
}
}
if(j>T[0])
return i-T[0];
else
return 0;
}
时间复杂度为O(n+m)
KMP算法的改进
就是针对next数组的改进,是j的每次回溯的值变小
设新数组为nextavl
则nextval的每一位的值便是在计算出next值得同时,如果a位字符与它next值指向的b位字符,则该a位的nextval值就是b位的nextval值,如果不等,则是它自己的next的值
例如对于T=”ababaaaba”:
j:123456789
T:ababaaaba
next[j]:011234223
nextval[j]:010104210