题目描述
某人读论文,一篇论文是由许多单词组成。但他发现一个单词会在论文中出现很多次,现在想知道每个单词分别在论文中出现多少次。
输入格式
第一行一个整数n,表示有多少个单词,接下来n行每行一个单词。
输出格式
输出 个整数,第i行的数字表示第i个单词在文章中出现了多少次。
样例
输入样例
3
a
aa
aaa
输出样例
6
3
1
思路
十分有意思的一道题,刷新了一波我对AC自动机的理解。
仔细分析样例,可以发现要求的为一个单词在所有单词中(包括自己)的出现次数。
首先,如果一个单词在一段字符串中出现过,那么它也一定会出现在这个字符串的所有前缀的某个后缀中(反之,也一定会出现在所有后缀的某个前缀中)。
例如:单词为cd
,字符串s为abcdabcd
。
那么cd
出现在s前缀abcd
的后缀cd
中,和s前缀abcdabcd
的后缀cd
中,且容易发现,该单词的出现次数就为:以该单词为后缀的前缀个数。
问题就转化为:对于任意一个单词,在所有单词中求满足要求(后缀等于该单词)的前缀个数。
我们可以先求出所有单词的前缀。设sum[i]为根节点到i节点形成的字符串是多少个单词的前缀。求sum数组很简单,只需要在每次插入单词时,将经过的节点的sum加1即可。
接下来,就是最关键的一步:如何从所有单词的前缀中筛选出满足条件(即该前缀的后缀等于某个单词)的前缀。
回想一下AC自动机中fail数组的意义:它能求出的是对于每一个字符串的后缀所能匹配的最长
的前缀,我们所要求的是对于每一个前缀,它的后缀能否
等于某个单词。如何利用最长
求出能否
呢?
KMP算法中有这么一个思想:next[i]里保存的是1~i所形成的子串中,最长公共前后缀的长度。那么,如何利用已知的next数组求出1~i中所有的公共前后缀呢?首先可以知道,next[i]表示的是一个公共前后缀。显然,next[next[i]]又是一个,next[next[next[i]]]又是一个…一直通过next数组跳到开头,每次跳到的地方就是一个公共前后缀,像这样通过next数组不停向前迭代。
那么对于AC自动机也是一样。考虑一个节点i,根节点到i形成的字符串s1是sum[i]个单词的前缀,根节点到fail[i]形成的字符串s2是s1的后缀,而如果s2恰好是某个单词,那么s1就是应该被记入答案的前缀,其在所有单词里出现的次数为sum[i]次。同理,fail[i]也具有以上性质,我们可以将fail[i]当做新的i重复以上过程。
同时,为了无后效性,我们需要按照层数由深到浅进行统计,将i的贡献sum[i]记入fail[i]的贡献sum[fail[i]]中,再不断将fail[i]作为新的i继续向上传递。
而我们可以惊喜地发现,在AC自动机进行bfs时,节点的入队顺序就是按层数深浅排列的,因此我们可以直接按照队列中节点的顺序倒序进行统计。在开始时先记录下每个单词的结尾节点编号,最后直接输出对应的sum值即可。
代码
#include<iostream>
#include<cstdio>
#include<vector>
#include<queue>
#include<cstring>
using namespace std;
const int N=1e6;
int t,n,tot,cnt;
int q[N+1],fail[N+1],sum[N+1],pos[N+1],trie[N+1][26];
string s;
void insert()
{
int len=s.size(),u=0;
for(int i=0;i<len;i++)
{
if(!trie[u][s[i]-'a'])
trie[u][s[i]-'a']=++tot;
u=trie[u][s[i]-'a'];
sum[u]++;//将经过的所有节点的sum值加1
}
pos[++cnt]=u;//记录每个单词结尾节点的编号
}
void bfs()
{
int q1=1,q2=0;//手写队列,方便记录入队顺序
for(int i=0;i<26;i++)
if(trie[0][i]) q[++q2]=trie[0][i];
for(;q1<=q2;q1++)
{
int u=q[q1];
for(int i=0;i<26;i++)
{
int v=trie[u][i];
if(v)
{
fail[v]=trie[fail[u]][i];
q[++q2]=v;
}
else trie[u][i]=trie[fail[u]][i];
}
}
}
int main()
{
scanf("%d",&n);
for(int i=1;i<=n;i++)
cin>>s,insert();
bfs();
for(int i=tot;i>=1;i--)
sum[fail[q[i]]]+=sum[q[i]];//按入队顺序倒序统计
for(int i=1;i<=n;i++)
printf("%d\n",sum[pos[i]]);//输出每个单词结尾节点对应的sum值
return 0;
}