单词
Description
某人读论文,一篇论文是由许多单词组成。但他发现一个单词会在论文中出现很多次,现在想知道每个单词分别在论文中出现多少次。
Input
第一个一个整数N,表示有多少个单词,接下来N行每行一个单词。每个单词由小写字母组成,N<=200,单词长度不超过10^6
Output
输出N个整数,第i行的数字表示第i个单词在文章中出现了多少次。
Sample Input
3
a
aa
aaa
Sample Output
6
3
1
咱很确信咱已经很久没打过AC自动机了……
然而,心血来潮打一次发现1A了。
突然发现咱居然还记得AC自动机怎么写……
思路:
所谓fail指针,就是指向失配后,能使当前有效匹配长度缩短的值最小的,同时在AC自动机上离当前节点最近的节点。
那么很显然,当前节点的fail指针指向的节点所代表的字符串,一定是当前节点代表的字符串的子串。
那么一个单词对其他单词的贡献,就是对其上的每个节点沿fail指针跑向根节点,这个节点将会对途经的每个节点有1的贡献。
那就可以对每个节点暴力跳,沿路cnt++~
然而这样显然会T……
那么考虑把fail指针反向,然后咱就获得了一棵fail树。
刚才的暴力相当于从叶子跑向根,沿路有1的贡献,那么考虑直接对每个节点初始打上1的贡献,对于每个节点直接统计子树贡献和,得到的就是每个节点的答案了~
#include<iostream>
#include<cstdio>
#include<cstring>
#include<cstdlib>
#include<algorithm>
using namespace std;
const int N=1e6+9;
int n;
char ch[N];
struct AC_automaton
{
int ch[N][27],cnt[N],fail[N],pool;
int ed[N],q[N],l,r;
inline void insert(char *s,int id)
{
int len=strlen(s+1),now=0;
for(int i=1;i<=len;i++)
{
if(!ch[now][s[i]-'a'])
ch[now][s[i]-'a']=++pool;
now=ch[now][s[i]-'a'];
cnt[now]++;
}
ed[id]=now;
}
inline void calc()
{
fail[0]=0;
q[r=1]=l=0;
while(l<r)
{
int u=q[++l];
for(int i=0;i<26;i++)
if(ch[u][i])
{
q[++r]=ch[u][i];
fail[ch[u][i]]= u==0?0:ch[fail[u]][i];
}
else
ch[u][i]= u==0?0:ch[fail[u]][i];
}
for(int i=r;i>=1;i--)
cnt[fail[q[i]]]+=cnt[q[i]];
for(int i=1;i<=n;i++)
printf("%d\n",cnt[ed[i]]);
}
}koishi;
int main()
{
scanf("%d",&n);
for(int i=1;i<=n;i++)
{
scanf("%s",ch+1);
koishi.insert(ch,i);
}
koishi.calc();
return 0;
}