串
概念
串是一个特殊的线性表,由n(n>=0)个字符组成的一个有限序列,n可以由字母、数字或其他字符组成,串的每个数据元素仅有一个字符,串又称字符串
S = “a1a2…ai…an”
S是串名,用双引号括起来的字符序列为串值,引号本身不是串的内容
存储
串的存储结构比较简单,单字符的特性,使得顺序及链式都能很好的兼容
- 顺序存储;
- 链式存储。
顺序存储
用一组地址连续的存储单元来存储串中的字符序列。按照预定的大小,为每个定义的串变量分配一个固定长度的存储区。一般用定长数组来定义。
链式存储
由于串结构的特殊性,结构中的每个元素都是一个字符,如果应用链表存储串值,一个结点对应一个字符,指针指向下一个字符,指针有很大可能比一个字符占用的空间还要大,造成不必要的空间浪费。因此除特殊情况外,极少使用链式来存储串结构
JAVA中的String类采用顺序存储结构,源码中存储字符串内容的数组使用final修饰
private final char value[];
由于String字符串都是常量,不便于插入和删除,因此在需要对字符串进行删除或插入时,一般使用StringBuffer或StringBuilder(继承自AbstractStringBuilder类),区别主要是StringBuffer对方法加了同步锁,是线程安全的
复杂度及应用
对于一般的顺序存储来说,获取字符串的长度,其复杂度是O(1),串元素的查询插入复杂度是O(n)
应用
串应用最广的则是主串与子串的匹配问题,在生物信息学、信息检索、拼写检查、语言翻译、数据压缩、网络入侵等领域都有应用
主串:“Hello World”
子串:“World”
匹配
字符串的应用极为广泛,因此,字符串匹配的算法也相当多,如BM、Horspool、Sunday,KMP、KR、AC自动机、shift-and等,而KMP到目前为止,一直是研究中最稳定的算法
朴素匹配
从主串的第一个字符开始分别与子串从开关进行比较,当发现不匹配时,主串回到这一轮开始的下一个字符,子串从头开始比较,直到子串所有的字符都匹配,返回所在主串中的下标
字符串朴素匹配的时间复杂度是O(m*n)
KMP算法
KMP算法是一种改进的字符串匹配算法,是克努特-莫里斯-普拉特三个人提出的,所以以三个人名字首字母命名,关键是利用匹配失败后信息,尽量减少串与主串的匹配次数以达到快速匹配的目的
KMP算法是比较稳定的匹配算法,在算法导论及数据结构都有所涉及,代码简单,逻辑抽象
字符串的朴素算法,复杂度是O(m*n),而KMP算法是从朴素算法抽象出来的
KMP算法的核心是一个NEXT数组,而NEXT数组求解是比较巧妙的,其核心是自己与自己比较重复的过程,为了理解方便,更多是以前缀与后缀进行的对比
比如ABABC,前缀为A,AB,ABA,ABAB后缀为C,BC,ABC,BABC
取得对应坐标字符转的前后缀集合的交集,就得到了NEXT数组,NEXT数组就是子串下标跳跃数字
每次匹配跳跃为next[j-1],所以我们直接定义了计算数组,方便计算
NEXT数组代码
// 获取Next数组计算
void getNext(char[] p, int[] next) {
next[0] = -1;
int i = 0, j = -1;
while(i < p.length) {
if (j == -1 || p[i] == p[j]) {
++i;
++j;
next[i] = j;
} else {
j = next[j];
}
}
}
- 依赖于NEXT数组的KMP算法
int KMP(char[] t, char[] p) {
int i = 0;
int j = 0;
int[] next = new int[p.length];
next = getNext(p, next);
while (i < t.length && j < p.length) {
if (j == -1 || t[i] == p[j]) {
i++;
j++;
} else {
j = next[j];
}
}
if (j == p.length) {
return i - j;
} else {
return -1;
}
}