P4824 & KMP 模板 题解
Task
给定字符串 s s s 和 t t t,求 s s s 中子串为 t t t 的个数及所有起始位置。
特别的,对于每个 i i i,还要给出 [ 1 , i ] [1,i] [1,i] 区间内,满足以下条件的 j j j 最大值:
- 1 ≤ j < i 1 \leq j < i 1≤j<i;
- substr ( 1 , j ) = substr ( i − j + 1 , i ) \texttt{substr} (1,j) = \texttt{substr} (i - j + 1,i) substr(1,j)=substr(i−j+1,i)
Idea
要知道 KMP,先要知道前缀函数。
为了方便,字符串均为 1-index
。
Prefix Function
前缀函数,以下简称为
π
(
i
)
\pi(i)
π(i),就是之前提到的
j
j
j 最大值。显然,
π
(
1
)
=
0
\pi(1)=0
π(1)=0。
对于一个字符串,求前缀函数可以
O
(
n
3
)
O(n^3)
O(n3) 暴力求解。
考虑优化。
考虑长度为 10 10 10 的字符串 s 1 s 2 ⋯ s 10 s_1s_2\cdots s_{10} s1s2⋯s10,已知 π ( 9 ) = 3 \pi(9)=3 π(9)=3。
可以证明, π \pi π 值最多比之前大 1 1 1。
思考:如何证明?
现在匹配到这个位置:
s 1 s 2 s 3 ‾ s 4 s 5 s 6 s 7 s 8 s 9 ‾ s 10 \begin{align}{\underline{s_1s_2s_3}s_4s_5s_6\underline{s_7s_8s_{9}}s_{10}}\end{align} s1s2s3s4s5s6s7s8s9s10
如果 π \pi π 值 ≥ 4 \geq 4 ≥4,那么 s 1 = s 7 , s 2 = s 8 , s 3 = s 9 , s 4 = s 10 s_1=s_7,s_2=s_8,s_3=s_9,s_4=s_{10} s1=s7,s2=s8,s3=s9,s4=s10。
显然, π ( 9 ) \pi(9) π(9) 应该 ≥ 3 \geq 3 ≥3,矛盾。
所以,发现 s π ( i − 1 ) + 1 = s i s_{\pi(i-1)+1}=s_{i} sπ(i−1)+1=si 时,只需将 π \pi π 值 + 1 +1 +1。
当我们发现不匹配的时候,该怎么办?
还是考虑原来的字符串。
s 1 s 2 s 3 ‾ s 4 s 5 s 6 s 7 s 8 s 9 ‾ s 10 \begin{align}{\underline{s_1s_2s_3}s_4s_5s_6\underline{s_7s_8s_{9}}s_{10}}\end{align} s1s2s3s4s5s6s7s8s9s10
我们要求、最大的
x
x
x,使得
s
10
=
s
x
s_{10}=s_x
s10=sx,并且
s
9
=
s
x
−
1
s_9=s_{x-1}
s9=sx−1,
s
8
=
s
x
−
2
s_8=s_{x-2}
s8=sx−2,如此下来。
仔细一看,这就是前缀函数!
所以,我们可以重复取前缀函数并递归判断。
时间复杂度 O ( n ) O(n) O(n)。
KMP
KMP 是一个前缀函数的典型应用。
思考:知道了前缀函数的 O ( n ) O(n) O(n) 解法,如何快速匹配字符串?
答案很简单。
我们构造一个字符串 t#s \texttt{t\#s} t#s,其中 # \texttt{\#} # 为不出现在任何字符串内的字符。
当 π ( i ) = ∣ t ∣ \pi(i)=|t| π(i)=∣t∣ 时, [ i − ∣ t ∣ + 1 , i ] [i-|t|+1,i] [i−∣t∣+1,i] 便是 t t t。
其实 Hash 也能在线性时间内过掉,所以模板题目需要求出前缀函数。
P4824 Censoring 题解
Description
给出两个字符串 s s s 和 t t t,求出 s s s 不断删除 t t t 再拼接,到拼接不了为止,最后的字符串。
Idea
KMP 裸题。
注意到前缀函数可以在线,所以在匹配完就把所有匹配到的子串的地址删去。
注意到每个字符最多被删一次,复杂度 O ( n + m ) O(n+m) O(n+m)。
Solution
#include <bits/stdc++.h>
#define int long long
// FOR templates.
#define rep(i, s, n, k) for(int i = s;i <= n;i += k)
#define repn(i, s, n, k) for(int i = s;i < n;i += k)
#define pre(i, s, n, k) for(int i = s;i >= n;i -= k)
#define pren(i, s, n, k) for(int i = s;i > n;i -= k)
// Abbr for STL.
#define pii pair<int, int>
#define pdd pair<double, double>
#define mpi map<int, int>
#define vc vector<int>
// IO templates, proven very useful.
#define cn(n) int n;cin >> n
#define cm(n) cin >> n
#define debug if(isdebug)cout
// Abbr for funcs.
#define pb push_back
#define mset memset
#define multitst() cn(t);while(t--)
// #define files
using namespace std;
const int MAXN = 0x3f3f3f3f3f3f3f3fLL;
const int MOD1 = 1000000007LL;
const int MOD2 = 998244353LL;
const int isdebug = 0LL;
int d[4][2] = {{1, 0}, {0, 1}, {-1, 0}, {0, -1}};
int gcd(int a, int b) {if(b == 0) return a;return gcd(b, a % b);}
inline int lowbit(int x) {return x & (-x);}
inline int lcm(int a, int b) {return a * b / gcd(a, b);}
vc ind; vector<char> s;
int pi[2000001], n; string t;
int make_prefix(int x, int y){
int p = pi[x];
while(p >= 1 && s[p] != s[y - 1]) p = pi[p];
if(s[p] == s[y - 1]) p++;
return p;
}
vc kmp(){
ind.pb(1); pi[1] = 0;
repn(i, 1, t.length(), 1){
ind.pb(i + 1);
pi[i + 1] = make_prefix(i, i + 1);
}
ind.pb(t.length() + 1);
repn(i, t.length() + 1, n, 1){
pi[i + 1] = make_prefix(ind[ind.size() - 1], i + 1);
ind.pb(i + 1);
if(pi[i + 1] == t.length()){
repn(j, 0, t.length(), 1)
ind.pop_back();
}
}
return ind;
}
signed main(){
#ifdef files
freopen(".in", "r", stdin);
freopen(".out", "w", stdout);
#endif
ios::sync_with_stdio(0);
cin.tie(0), cout.tie(0);
string tar; cm(tar); cm(t);
repn(i, 0, t.length(), 1)
s.pb(t[i]);
s.pb('#');
repn(i, 0, tar.length(), 1)
s.pb(tar[i]);
n = s.size();
vc ans = kmp();
repn(i, t.length() + 1, ans.size(), 1){
cout << s[ans[i] - 1];
}
cout << endl;
#ifdef files
fclose(stdin); fclose(stdout);
#endif
return 0;
}
/*
* things to check
* 1. int overflow or long long memory need
* 2. recursion/array/binary search/dp/loop bounds
* 3. precision
* 4. special cases(n=1,bounds)
* 5. delete debug statements
* 6. initialize(especially multi-tests)
* 7. = or == , n or m ,++ or -- , i or j , > or >= , < or <=
* 8. keep it simple and stupid
* 9. do not delete, use // instead
* 10. operator priority
* 11. is there anything extra to output?
* 12. THINK TWICE CODE ONCE, THINK ONCE DEBUG FOREVER
* 13. submit ONCE, AC once. submit twice, WA forever
* 14. calm down and you'll get good rank
* 15. even a bit wrong scores zero
* 16. ...
**/
/*
* something to think about
* 1. greedy? dp? searching? dp with matrix/ segment tree? binary search? ...?
* 2. If it is difficult, why not the opposite?
**/