给你两个字符串 haystack 和 needle ,请你在 haystack 字符串中找出 needle 字符串出现的第一个位置(下标从 0 开始)。如果不存在,则返回 -1 。
说明
当 needle 是空字符串时,我们应当返回什么值呢?这是一个在面试中很好的问题。
对于本题而言,当 needle 是空字符串时我们应当返回 0 。这与 C 语言的 strstr() 以及 Java 的 indexOf()
定义相符。
示例 1:
输入:haystack = "hello", needle = "ll"
输出:2
示例 2:
输入:haystack = "aaaaa", needle = "bba"
输出:-1
示例 3:
输入:haystack = "", needle = ""
输出:0
提示
0 <= haystack.length, needle.length <= 5 * 104
haystack 和 needle 仅由小写英文字符组成
Horspool
由于最近学习到Horspool算法,所以在本题中我采用的是该算法:
算法步骤
- 对于给定的长度为m的模式和在模式及文本中用到的字母表t(n),按照上面的描述构造移动表。
- 将模式与文本的开始处对齐。
- 重复下面的过程,直到发现了一个匹配子串或者模式到达了文本的最后一个字符以外。从模式的最后一个字符开始,比较模式和文本中的相应字符,直到:要么所有m个字符都匹配(然后停止),要么遇到了一对不匹配的字符,在后一种情况下,如果c是当前文本中和模式的最后一个字符相对齐的字符,从移动表的第c列中取出单元格t©的值,然后将模式沿着文本向右移动t©个字符的距离。
代码
public int strStr(String haystack, String needle) {
if(needle.length() == 0)
{
return 0;
}
int nlen = needle.length();
int hlen = haystack.length();
int list[] = new int[27];//存储26个小写字母的移动位置,生成移动表
for(int i = 0; i < list.length; i++)
list[i] = nlen;//初始化字母表中所有的数组值为needle字符串长度
for(int z = 0; z < nlen-1; z++)
list[(int)needle.charAt(z)-'a'] = nlen - 1 - z;//needle字符串前nlen-1个字符中最右边的c到needle最后一个字符的距离
int a = nlen-1;//将needle字符串与haystack字符串的开始处对齐
while(a <= hlen-1)//遍历haystack字符串
{
int k = 0;//匹配字符的个数
while(k < nlen && (needle.charAt(nlen - 1 - k) == haystack.charAt(a - k)))//从needle字符的最后一个字符开始,比较两个字符串相对于的字符,直到遇到不匹配字符结束,或者全都匹配
++k;
if(k == nlen)//如果全部都匹配
return a - nlen + 1;//返回needle字符串出现的第一个位置
else
a = a + list[(int)haystack.charAt(a) - 'a'];//读取当前haystack中和needle的最后一个字符相对齐的字符对应移动表的值t(c),将needle字符串向右移动t(c)个字符的距离
}
return -1;
}
复杂度分析
- 时间复杂度:Horspool算法的最差效率属于O(nm),对于随机文本来说,它的效率∈θ(n)的,平均来说,它明显比蛮力算法要快许多。
Knuth-Morris-Pratt(KMP)
步骤
- 求needle 部分的前缀函数,我们需要保留这部分的前缀函数值。
- 求haystack 部分的前缀函数,我们无需保留这部分的前缀函数值。只需要用一个变量记录上一个位置的前缀函数值即可。当某个位置的前缀函数值等于 m 时,说明我们就找到了一次字符串needle 在字符串 haystack 中的出现(因为此时真前缀恰为字符串needle,真后缀为以当前位置为结束位置的字符串haystack 的子串),我们计算出起始位置,将其返回即可。
代码
public int strStr(String haystack, String needle) {
public static int strStr(String haystack, String needle) {
int hlen = haystack.length();
int nlen = needle.length();
if (nlen == 0) {
return 0;
}
int[] list = new int[nlen];
for (int i = 1, j = 0; i < nlen; i++) {
while (j > 0 && needle.charAt(i) != needle.charAt(j))
{
j = list[j - 1];
}
if (needle.charAt(i) == needle.charAt(j))
{
j++;
}
list[i] = j;
}
for (int i = 0, j = 0; i < hlen; i++)
{
while (j > 0 && haystack.charAt(i) != needle.charAt(j))
{
j = list[j - 1];
}
if (haystack.charAt(i) == needle.charAt(j))
{
j++;
}
if (j == nlen)
{
return i - nlen + 1;
}
}
return -1;
}
复杂度分析
- 时间复杂度O∈(n+m),两个字符串长度和。
- 空间复杂度O∈(m),m为needle字符串的长度。