Description
小张最近在忙毕业设计,所以一直在读论文。一篇论文是由许多单词组成的。
但小张发现一个单词会在论文中出现很多次,他想知道每个单词分别在论文中出现了多少次。
Input
第一行一个整数N,表示有N个单词。接下来N行每行一个单词,每个单词都由小写字母(‘a’-‘z’)组成。(N<=200)
Output
输出N个整数,第i行的数表示第i个单词在文章中出现了多少次。
Sample Input
3
a
aa
aaa
Sample Output
6
3
1
Data Constraint
30%的数据,单词总长度不超过1000;
100%的数据,单词总长度不超过1000000。
思路
把所有字符串放在Trie里,并记cnt[i]为Trie的节点i为多少个字符串的前缀。
一个字符串是另一个字符串的子串,那么它也是该字符串某个前缀s[0,m]的后缀。
那么一个想法就出来了:
求出fail数组,然后以fail指针为边建出fail树,那么一个字符串的出现个数为:设它的结尾是节点x,那么fail树上以x为根的子树的cnt值的总和即为答案。
#include <cstdio>
#include <cstring>
#include <algorithm>
using namespace std;
const int maxn=1000005;
typedef long long LL;
int n,tot,st[205],son[maxn][26],h[maxn],e[maxn],next[maxn],id[205],data[maxn],fail[maxn];
LL f[maxn];
char s[maxn],c;
void Insert(int st,int en,int z)
{
int x=0;
for (int i=st;i<en;i++)
{
if (!son[x][s[i]-'a']) son[x][s[i]-'a']=++tot;
x=son[x][s[i]-'a'];
f[x]++;
}
id[z]=x;
}
void add(int x,int y)
{
e[++tot]=y; next[tot]=h[x]; h[x]=tot;
}
void get_fail()
{
int t=1;
data[1]=tot=0; fail[0]=-1;
for (int i=1;i<=t;i++)
{
int x=data[i];
if (x) add(fail[x],x);
for (int j=0;j<26;j++) if (son[x][j])
{
data[++t]=son[x][j];
int k=fail[x];
for (;k>=0 && !son[k][j];k=fail[k]);
fail[son[x][j]]=(k>=0)?son[k][j]:0;
}
}
}
void get_ans(int x)
{
for (int i=h[x];i;i=next[i])
{
get_ans(e[i]);
f[x]+=f[e[i]];
}
}
int main()
{
scanf("%d",&n);
memset(id,255,sizeof(id));
for (int i=0;i<n;i++)
{
st[i]=tot;
for (c=getchar();c<'a' || c>'z';c=getchar());
for (;c>='a' && c<='z';c=getchar()) s[tot++]=c;
}
st[n]=tot;
tot=0;
for (int i=0;i<n;i++) Insert(st[i],st[i+1],i);
get_fail();
get_ans(0);
for (int i=0;i<n;i++) printf("%lld\n",f[id[i]]);
return 0;
}