对于AC自动机可能有的疑问。
首先上代码,该代码使用char型数组保存,事实上string也完全可以。
#include<bits/stdc++.h>
using namespace std;
char s[1000005];
struct Tree//字典树
{
int fail;//失配指针
int vis[26];//子节点的位置
int end;//标记有几个单词以这个节点结尾
}AC[1000000];//Trie树
int cnt=0;//Trie的指针
inline void Build(char* s)
{
int l=strlen(s+1);
int now=0;//字典树的当前指针
for(int i=1;i<=l;++i)//构造Trie树
{
if(AC[now].vis[s[i]-'a']==0)//Trie树没有这个子节点
AC[now].vis[s[i]-'a']=++cnt;//构造出来
now=AC[now].vis[s[i]-'a'];//向下构造
}
AC[now].end+=1;//标记单词结尾
}
void Get_fail()//构造fail指针
{
queue<int> Q;//队列
for(int i=0;i<26;++i)//第二层的fail指针提前处理一下
{
if(AC[0].vis[i]!=0)
{
AC[AC[0].vis[i]].fail=0;//指向根节点
Q.push(AC[0].vis[i]);//压入队列
}
}
while(!Q.empty())//BFS求fail指针
{
int u=Q.front();
Q.pop();
for(int i=0;i<26;++i)//枚举所有子节点
{
if(AC[u].vis[i]!=0)//存在这个子节点
{
AC[AC[u].vis[i]].fail=AC[AC[u].fail].vis[i];
//子节点的fail指针指向当前节点的
//fail指针所指向的节点的相同子节点
Q.push(AC[u].vis[i]);//压入队列
}
else//不存在这个子节点
AC[u].vis[i]=AC[AC[u].fail].vis[i];
//当前节点的这个子节点指向当
//前节点fail指针的这个子节点
}
}
}
int AC_Query(char* s)//AC自动机匹配
{
int l=strlen(s+1);
int now=0,ans=0;
for(int i=1;i<=l;++i)
{
now=AC[now].vis[s[i]-'a'];//向下一层
for(int t=now;t&&AC[t].end!=-1;t=AC[t].fail)//循环求解
{
ans+=AC[t].end;
AC[t].end=-1;
}
}
return ans;
}
int main()
{
int n;
cin>>n;
for(int i=1;i<=n;++i)
{
scanf("%s",s+1);
Build(s);
}
AC[0].fail=0;//结束标志
Get_fail();//求出失配指针
scanf("%s",s+1);//文本串
cout<<AC_Query(s)<<endl;
return 0;
}
1、其实fail数组fail[u]=v的意思就是根节点到v所表示的字符串为从根节点到u所代表的字符串的后缀。之所以这样做是因为如果在u处失配,则v的前半部分也已配对好,只需接着配对即可。
2、 在构造fail数组时,基于u(即当前子节点)的构造使人一开始十分疑惑。事实上,这样的构造方式可以起到加速效果。而且画图有助于理解。(在树中插入she和her,之后去匹配sher,十分清楚)。
先去吃饭。