P4824 Censoring 与 KMP模板 题解

P4824 & KMP 模板 题解

Task

给定字符串 s s s t t t,求 s s s 中子串为 t t t 的个数及所有起始位置。

特别的,对于每个 i i i,还要给出 [ 1 , i ] [1,i] [1,i] 区间内,满足以下条件的 j j j 最大值:

  • 1 ≤ j < i 1 \leq j < i 1j<i
  • substr ( 1 , j ) = substr ( i − j + 1 , i ) \texttt{substr} (1,j) = \texttt{substr} (i - j + 1,i) substr(1,j)=substr(ij+1,i)

Idea

要知道 KMP,先要知道前缀函数

为了方便,字符串均为 1-index

Prefix Function

前缀函数,以下简称为 π ( i ) \pi(i) π(i),就是之前提到的 j j j 最大值。显然, π ( 1 ) = 0 \pi(1)=0 π(1)=0
对于一个字符串,求前缀函数可以 O ( n 3 ) O(n^3) O(n3) 暴力求解。

考虑优化。

考虑长度为 10 10 10 的字符串 s 1 s 2 ⋯ s 10 s_1s_2\cdots s_{10} s1s2s10,已知 π ( 9 ) = 3 \pi(9)=3 π(9)=3

可以证明, π \pi π 值最多比之前大 1 1 1

思考:如何证明?

现在匹配到这个位置:

s 1 s 2 s 3 ‾ s 4 s 5 s 6 s 7 s 8 s 9 ‾ s 10 \begin{align}{\underline{s_1s_2s_3}s_4s_5s_6\underline{s_7s_8s_{9}}s_{10}}\end{align} s1s2s3s4s5s6s7s8s9s10

如果 π \pi π ≥ 4 \geq 4 4,那么 s 1 = s 7 , s 2 = s 8 , s 3 = s 9 , s 4 = s 10 s_1=s_7,s_2=s_8,s_3=s_9,s_4=s_{10} s1=s7,s2=s8,s3=s9,s4=s10

显然, π ( 9 ) \pi(9) π(9) 应该 ≥ 3 \geq 3 3,矛盾。

所以,发现 s π ( i − 1 ) + 1 = s i s_{\pi(i-1)+1}=s_{i} sπ(i1)+1=si 时,只需将 π \pi π + 1 +1 +1

当我们发现不匹配的时候,该怎么办?

还是考虑原来的字符串。

s 1 s 2 s 3 ‾ s 4 s 5 s 6 s 7 s 8 s 9 ‾ s 10 \begin{align}{\underline{s_1s_2s_3}s_4s_5s_6\underline{s_7s_8s_{9}}s_{10}}\end{align} s1s2s3s4s5s6s7s8s9s10

我们要求、最大的 x x x,使得 s 10 = s x s_{10}=s_x s10=sx,并且 s 9 = s x − 1 s_9=s_{x-1} s9=sx1 s 8 = s x − 2 s_8=s_{x-2} s8=sx2,如此下来。
仔细一看,这就是前缀函数
所以,我们可以重复取前缀函数并递归判断。

时间复杂度 O ( n ) O(n) O(n)

KMP

KMP 是一个前缀函数的典型应用。

思考:知道了前缀函数的 O ( n ) O(n) O(n) 解法,如何快速匹配字符串?

答案很简单。

我们构造一个字符串 t#s \texttt{t\#s} t#s,其中 # \texttt{\#} # 为不出现在任何字符串内的字符。

π ( i ) = ∣ t ∣ \pi(i)=|t| π(i)=t 时, [ i − ∣ t ∣ + 1 , i ] [i-|t|+1,i] [it+1,i] 便是 t t t

其实 Hash 也能在线性时间内过掉,所以模板题目需要求出前缀函数。

P4824 Censoring 题解

Description

给出两个字符串 s s s t t t,求出 s s s 不断删除 t t t 再拼接,到拼接不了为止,最后的字符串。

Idea

KMP 裸题。

注意到前缀函数可以在线,所以在匹配完就把所有匹配到的子串的地址删去。

注意到每个字符最多被删一次,复杂度 O ( n + m ) O(n+m) O(n+m)

Solution

#include <bits/stdc++.h>

#define int long long

// FOR templates.
#define rep(i, s, n, k) for(int i = s;i <= n;i += k)
#define repn(i, s, n, k) for(int i = s;i < n;i += k)
#define pre(i, s, n, k) for(int i = s;i >= n;i -= k)
#define pren(i, s, n, k) for(int i = s;i > n;i -= k)

// Abbr for STL.
#define pii pair<int, int>
#define pdd pair<double, double>
#define mpi map<int, int>
#define vc vector<int>

// IO templates, proven very useful.
#define cn(n) int n;cin >> n
#define cm(n) cin >> n
#define debug if(isdebug)cout

// Abbr for funcs.
#define pb push_back
#define mset memset
#define multitst() cn(t);while(t--)

// #define files

using namespace std;
const int MAXN = 0x3f3f3f3f3f3f3f3fLL;
const int MOD1 = 1000000007LL;
const int MOD2 = 998244353LL;
const int isdebug = 0LL;

int d[4][2] = {{1, 0}, {0, 1}, {-1, 0}, {0, -1}};
int gcd(int a, int b) {if(b == 0) return a;return gcd(b, a % b);}
inline int lowbit(int x) {return x & (-x);}
inline int lcm(int a, int b) {return a * b / gcd(a, b);}

vc ind; vector<char> s;
int pi[2000001], n; string t;

int make_prefix(int x, int y){
	int p = pi[x];
	while(p >= 1 && s[p] != s[y - 1]) p = pi[p];
	if(s[p] == s[y - 1]) p++;
	return p;
}
vc kmp(){
	ind.pb(1); pi[1] = 0;
	repn(i, 1, t.length(), 1){
		ind.pb(i + 1);
		pi[i + 1] = make_prefix(i, i + 1);
	}
	ind.pb(t.length() + 1);
	repn(i, t.length() + 1, n, 1){
		pi[i + 1] = make_prefix(ind[ind.size() - 1], i + 1);
		ind.pb(i + 1);
		if(pi[i + 1] == t.length()){
			repn(j, 0, t.length(), 1)
				ind.pop_back();
		}
	}
	return ind;
}

signed main(){
#ifdef files
	freopen(".in", "r", stdin);
	freopen(".out", "w", stdout);
#endif
	ios::sync_with_stdio(0);
	cin.tie(0), cout.tie(0);
	string tar; cm(tar); cm(t);
	repn(i, 0, t.length(), 1)
		s.pb(t[i]);
	s.pb('#');
	repn(i, 0, tar.length(), 1)
		s.pb(tar[i]);
	n = s.size();
	vc ans = kmp();
	repn(i, t.length() + 1, ans.size(), 1){
		cout << s[ans[i] - 1];
	}
	cout << endl;
#ifdef files
	fclose(stdin); fclose(stdout);
#endif
	return 0;
}

/*
 *  things to check
 *  1.  int overflow or long long memory need
 *  2.  recursion/array/binary search/dp/loop bounds
 *  3.  precision
 *  4.  special cases(n=1,bounds)
 *  5.  delete debug statements
 *  6.  initialize(especially multi-tests)
 *  7.  = or == , n or m ,++ or -- , i or j , > or >= , < or <=
 *  8.  keep it simple and stupid
 *  9.  do not delete, use // instead
 *  10. operator priority
 *  11. is there anything extra to output?
 *  12. THINK TWICE CODE ONCE, THINK ONCE DEBUG FOREVER
 *  13. submit ONCE, AC once. submit twice, WA forever
 *  14. calm down and you'll get good rank
 *  15. even a bit wrong scores zero
 *  16. ...
 **/

 /*
 *  something to think about
 *  1. greedy? dp? searching? dp with matrix/ segment tree? binary search? ...?
 *  2. If it is difficult, why not the opposite?
 **/


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值