TJOI2013 单词(Ybtoj AC自动机.B 单词频率)

题目描述

某人读论文,一篇论文是由许多单词组成。但他发现一个单词会在论文中出现很多次,现在想知道每个单词分别在论文中出现多少次。

输入格式

第一行一个整数n,表示有多少个单词,接下来n行每行一个单词。

输出格式

输出 个整数,第i行的数字表示第i个单词在文章中出现了多少次。

样例

输入样例

3
a
aa
aaa

输出样例

6
3
1

思路

十分有意思的一道题,刷新了一波我对AC自动机的理解。

仔细分析样例,可以发现要求的为一个单词在所有单词中(包括自己)的出现次数。

首先,如果一个单词在一段字符串中出现过,那么它也一定会出现在这个字符串的所有前缀的某个后缀中(反之,也一定会出现在所有后缀的某个前缀中)。

例如:单词为cd,字符串s为abcdabcd

那么cd出现在s前缀abcd的后缀cd中,和s前缀abcdabcd的后缀cd中,且容易发现,该单词的出现次数就为:以该单词为后缀的前缀个数。

问题就转化为:对于任意一个单词,在所有单词中求满足要求(后缀等于该单词)的前缀个数。

我们可以先求出所有单词的前缀。设sum[i]为根节点到i节点形成的字符串是多少个单词的前缀。求sum数组很简单,只需要在每次插入单词时,将经过的节点的sum加1即可。

接下来,就是最关键的一步:如何从所有单词的前缀中筛选出满足条件(即该前缀的后缀等于某个单词)的前缀。

回想一下AC自动机中fail数组的意义:它能求出的是对于每一个字符串的后缀所能匹配的最长的前缀,我们所要求的是对于每一个前缀,它的后缀能否等于某个单词。如何利用最长求出能否呢?

KMP算法中有这么一个思想:next[i]里保存的是1~i所形成的子串中,最长公共前后缀的长度。那么,如何利用已知的next数组求出1~i中所有的公共前后缀呢?首先可以知道,next[i]表示的是一个公共前后缀。显然,next[next[i]]又是一个,next[next[next[i]]]又是一个…一直通过next数组跳到开头,每次跳到的地方就是一个公共前后缀,像这样通过next数组不停向前迭代。

那么对于AC自动机也是一样。考虑一个节点i,根节点到i形成的字符串s1是sum[i]个单词的前缀,根节点到fail[i]形成的字符串s2是s1的后缀,而如果s2恰好是某个单词,那么s1就是应该被记入答案的前缀,其在所有单词里出现的次数为sum[i]次。同理,fail[i]也具有以上性质,我们可以将fail[i]当做新的i重复以上过程。
同时,为了无后效性,我们需要按照层数由深到浅进行统计,将i的贡献sum[i]记入fail[i]的贡献sum[fail[i]]中,再不断将fail[i]作为新的i继续向上传递。

而我们可以惊喜地发现,在AC自动机进行bfs时,节点的入队顺序就是按层数深浅排列的,因此我们可以直接按照队列中节点的顺序倒序进行统计。在开始时先记录下每个单词的结尾节点编号,最后直接输出对应的sum值即可。

代码

#include<iostream>
#include<cstdio>
#include<vector>
#include<queue>
#include<cstring>
using namespace std;
const int N=1e6;
int t,n,tot,cnt;
int q[N+1],fail[N+1],sum[N+1],pos[N+1],trie[N+1][26];
string s;
void insert()
{
	int len=s.size(),u=0;
	for(int i=0;i<len;i++)
	{
		if(!trie[u][s[i]-'a']) 
		trie[u][s[i]-'a']=++tot;
		u=trie[u][s[i]-'a'];
		sum[u]++;//将经过的所有节点的sum值加1 
	}
	pos[++cnt]=u;//记录每个单词结尾节点的编号 
}
void bfs()
{
	int q1=1,q2=0;//手写队列,方便记录入队顺序 
	for(int i=0;i<26;i++)
	if(trie[0][i]) q[++q2]=trie[0][i];
	for(;q1<=q2;q1++)
	{
		int u=q[q1];
		for(int i=0;i<26;i++)
		{
			int v=trie[u][i];
			if(v)
			{
				fail[v]=trie[fail[u]][i];
				q[++q2]=v;
			}
			else trie[u][i]=trie[fail[u]][i];
		}
	}
}
int main()
{
	scanf("%d",&n);
	for(int i=1;i<=n;i++)
	cin>>s,insert();
	bfs();
	for(int i=tot;i>=1;i--)
	sum[fail[q[i]]]+=sum[q[i]];//按入队顺序倒序统计 
	for(int i=1;i<=n;i++)
	printf("%d\n",sum[pos[i]]);//输出每个单词结尾节点对应的sum值 
	return 0;
}
  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值