AC自动机

最新推荐文章于 2024-02-22 00:23:59 发布

yzyyylx

最新推荐文章于 2024-02-22 00:23:59 发布

阅读量185

点赞数 1

分类专栏：数据结构字符串树算法自动机

本文链接：https://blog.csdn.net/yzyyylx/article/details/79545138

版权

树同时被 3 个专栏收录

71 篇文章 0 订阅

订阅专栏

算法

54 篇文章 0 订阅

订阅专栏

字符串

27 篇文章 0 订阅

订阅专栏

作用

用于处理多个字符串匹配,例如给出一些关键单词,再给出一篇文章(或多篇),问文章内的出现了几个单词或一共出现了几次.

实现方法

可以说是KMP与字典树的结合,就好像利用字典树存储多个字符串的next数组.
首先将所有关键单词建一棵字典树,每个节点除了存储26(字符种类数)个儿子外,还要储存sum和fail.
sum用于记录此节点是否是某个关键词的尾字符,并且也可以顺便储存此字符串的个数
fail相当于KMP中的next数组,当匹配失败时,则要找到在前面去掉最少的已匹配字符使它重新匹配的节点,fail便指向这个节点,与根节点相连的节点的fail指向根.
匹配时,若下一个字符可以沿着字典树走下去,则走下去,反之沿着fail向上找,直到下一个字符匹配或是找到根节点.
若下一个字符成功匹配,那么就沿着其fail指向的节点不断向上查找,直到到根,沿路上的节点都是已经成功匹配了的(相当于将已匹配的字符串去掉前面的部分字符形成的字符串),根据题意处理他们的sum.

例题 HDU 2222

实现时注意不要写成for(i=1;i<=strlen(str+1);i++)
要写成for(i=1,len=strlen(str+1);i<=len;i++);
因为strlen()很慢,如果写在循环限制上会很慢.

#include<iostream>
#include<cstdio>
#include<cstring>
#include<queue>
#include<bitset>
using namespace std;

int T,n,tt,ans;
char str[1001000];
bitset<1001000>vis;
struct Node
{
    int son[30],fail,sum;
    void init()
    {
        memset(son,0,sizeof(son));
        sum=fail=0;
    }
};
Node node[1001000];
queue<int>que;

inline void in()
{
    int i,now=0,tmp,len=strlen(str+1);
    for(i=1;i<=len;i++)
    {
        tmp=str[i]-'a';
        if(!node[now].son[tmp])
        {
            node[now].son[tmp]=++tt;
        }
        now=node[now].son[tmp];
    }
    node[now].sum++;
}

inline void build()
{
    int i,j,k,p;
    for(i=0;i<26;i++)
    {
        if(node[0].son[i])
        {
            node[node[0].son[i]].fail=0;
            que.push(node[0].son[i]);
        }
    }
    for(;!que.empty();)
    {
        p=que.front();
        que.pop();
        for(i=0;i<26;i++)
        {
            if(node[p].son[i])
            {
                for(k=node[p].fail;k&&!node[k].son[i];k=node[k].fail);
                node[node[p].son[i]].fail=(node[k].son[i])?node[k].son[i]:0;
                que.push(node[p].son[i]);
            }
        }
    }
}

inline void find()
{
    int i,k,now=0,tmp,len=strlen(str+1);
    for(i=1;i<=len;i++)
    {
        tmp=str[i]-'a';
        for(;now&&!node[now].son[tmp];now=node[now].fail);
        if(node[now].son[tmp])
        {
            now=node[now].son[tmp];
            for(k=now;k&&!vis[k];k=node[k].fail)
            {
                vis[k]=1;
                ans+=node[k].sum;
            }
        }
    }
}

int main()
{
    int i,j;
    cin>>T;
    while(T--)
    {
        vis.reset();
        for(i=0;i<=tt;i++) node[i].init();
        tt=ans=0;
        scanf("%d",&n);
        for(i=1;i<=n;i++)
        {
            scanf("%s",str+1);
            in();
        }
        build();
        scanf("%s",str+1);
        find();
        printf("%d\n",ans);
    }
}

yzyyylx

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
AC自动机

作用用于处理多个字符串匹配,例如给出一些关键单词,再给出一篇文章(或多篇),问文章内的出现了几个单词或一共出现了几次.实现方法可以说是KMP与字典树的结合,就好像利用字典树存储多个字符串的next数组. 首先将所有关键单词建一棵字典树,每个节点除了存储26(字符种类数)个儿子外,还要储存sum和fail. sum用于记录此节点是否是某个关键词的尾字符,并且也可以顺便储存此字符串的个数 fail
复制链接

扫一扫

专栏目录