作用
用于处理多个字符串匹配,例如给出一些关键单词,再给出一篇文章(或多篇),问文章内的出现了几个单词或一共出现了几次.
实现方法
可以说是KMP与字典树的结合,就好像利用字典树存储多个字符串的next数组.
首先将所有关键单词建一棵字典树,每个节点除了存储26(字符种类数)个儿子外,还要储存sum和fail.
sum用于记录此节点是否是某个关键词的尾字符,并且也可以顺便储存此字符串的个数
fail相当于KMP中的next数组,当匹配失败时,则要找到在前面去掉最少的已匹配字符使它重新匹配的节点,fail便指向这个节点,与根节点相连的节点的fail指向根.
匹配时,若下一个字符可以沿着字典树走下去,则走下去,反之沿着fail向上找,直到下一个字符匹配或是找到根节点.
若下一个字符成功匹配,那么就沿着其fail指向的节点不断向上查找,直到到根,沿路上的节点都是已经成功匹配了的(相当于将已匹配的字符串去掉前面的部分字符形成的字符串),根据题意处理他们的sum.
例题 HDU 2222
实现时注意不要写成for(i=1;i<=strlen(str+1);i++)
要写成for(i=1,len=strlen(str+1);i<=len;i++);
因为strlen()很慢,如果写在循环限制上会很慢.
#include<iostream>
#include<cstdio>
#include<cstring>
#include<queue>
#include<bitset>
using namespace std;
int T,n,tt,ans;
char str[1001000];
bitset<1001000>vis;
struct Node
{
int son[30],fail,sum;
void init()
{
memset(son,0,sizeof(son));
sum=fail=0;
}
};
Node node[1001000];
queue<int>que;
inline void in()
{
int i,now=0,tmp,len=strlen(str+1);
for(i=1;i<=len;i++)
{
tmp=str[i]-'a';
if(!node[now].son[tmp])
{
node[now].son[tmp]=++tt;
}
now=node[now].son[tmp];
}
node[now].sum++;
}
inline void build()
{
int i,j,k,p;
for(i=0;i<26;i++)
{
if(node[0].son[i])
{
node[node[0].son[i]].fail=0;
que.push(node[0].son[i]);
}
}
for(;!que.empty();)
{
p=que.front();
que.pop();
for(i=0;i<26;i++)
{
if(node[p].son[i])
{
for(k=node[p].fail;k&&!node[k].son[i];k=node[k].fail);
node[node[p].son[i]].fail=(node[k].son[i])?node[k].son[i]:0;
que.push(node[p].son[i]);
}
}
}
}
inline void find()
{
int i,k,now=0,tmp,len=strlen(str+1);
for(i=1;i<=len;i++)
{
tmp=str[i]-'a';
for(;now&&!node[now].son[tmp];now=node[now].fail);
if(node[now].son[tmp])
{
now=node[now].son[tmp];
for(k=now;k&&!vis[k];k=node[k].fail)
{
vis[k]=1;
ans+=node[k].sum;
}
}
}
}
int main()
{
int i,j;
cin>>T;
while(T--)
{
vis.reset();
for(i=0;i<=tt;i++) node[i].init();
tt=ans=0;
scanf("%d",&n);
for(i=1;i<=n;i++)
{
scanf("%s",str+1);
in();
}
build();
scanf("%s",str+1);
find();
printf("%d\n",ans);
}
}