AC自动机入门

今天我先水一篇博客 咳咳
废话不说了,直接进入正题,我们今天讲的是AC自动机。
没错就是拿来A题的自动机,AC其实是一位神奇的科学家的名字
首先,我们先讲讲什么是AC自动机
先看一道例题:

1479:【例题1】Keywords Search
【题目描述】
给定 n 个长度不超过 50 的由小写英文字母组成的单词准备查询,以及一篇长为 m 的文章,问:文中出现了多少个待查询的单词。多组数据。
【输入】
第一行一个整数 T,表示数据组数;
对于每组数据,第一行一个整数 n,接下去 n 行表示 n 个单词,最后一行输入一个字符串,表示文章。
【输出】
对于每组数据,输出一个数,表示文中出现了多少个待查询的单词。
【输入样例】
1
5
she
he
say
shr
her
yasherhs
【输出样例】
3
【提示】
数据范围:
对于全部数据,1≤n≤104,1≤m≤106​​ 。

反正大概意思就是给你好多个子串,再给一个母串,问你子串里面有多少个子串?
怎么写呢?
最直接的思想就是n个KMP,暴力母串匹配。然而这个时间复杂度远远达不到我们所想达到的时间复杂度,大概是O(n*(len子串+母串)),乘法的东西就很慢,这时候就得靠加法的东西给他搞上去。怎么搞呢?
Trie树+KMP思想
Trie树+KMP思想
Trie树+KMP思想

首先这么多个子串,肯定需要一个好的数据结构来储存,Trie树当然是不二的选择。
至于KMP思想嘛…就是为了避免时间复杂度出现乘法。接下来我们将具体怎么实践

一、构建字典树(样例为例子)

既然要用到字典树,那肯定得先构造。这个不会建议专门去搜博客学字典树
直接画然后套代码咯(图很丑,凑合着用就行)
在这里插入图片描述
解释一下改图哈:打勾勾的就代表他是单词的末尾,随便指一条路线,例如:s–h--e,e打红勾勾了,就代表she是一个完整的单词,再举一个例子,例如
h-e-r,e和r都打红勾勾,就代表he和her是完整的单词。好,话不多说,套代码。

void insert(char *str)//要插入str这个字符串
{
   
	int len=strlen(str),root=0,id;//len是长度,root是指一开始最上面的一个字母都没有的那个框框
	for(int i=0;i<len;i++)//遍历str数组
	{
   
		id=str[i]-'a';//因为trie的第二维数组是用桶来装字母的,所以先求出该字母的桶号
		if(!tree[root][id])//如果这个节点的这个孩子是没有的(有的就不用再建立了)
			tree[root][id]=++tot;//就新建一个孩子,并且为它附上编号,即tot。tot主要代表的是编号,实际意义其实不算特别大
		root=tree[root][id];//root往下跳,因为是一个单词一个单词建立的trie树,
		而每个单词的每个字母逐渐往下跳,所以才有这句话。
		例如一开始是根(啥字母都没有的那个圈圈),
		然后现在要建立she这个单词,现在根里面新建一条边s,并附上编号,
		然后再在s里面新建一条边h。第一次是在根里面建孩子,第二次是在s里面建立孩子,
		所以就要转换他的母亲,即这一句话。原来的孩子就变成了新的母亲。
	}
	flag[root]++;//为这个最后一个孩子打上红勾勾记号
}

二、理解fail指针

有观众着急了,说好要用到KMP的思想,讲了半天,KMP的思想到底体现在哪里?这就是我们接下来要学习的重点——fail指针(也叫失配指针)
我们先来会想一下KMP算法,KMP算法比普通的暴力匹配优化在哪里?优化在当匹配失败的时候并不会从头开始重新匹配,而是直接找到最长公共前后缀拖过去,大大加快了速度。而AC自动机的fail指针的思想也是如此。当我们匹配失败的时候我们应该干什么?重头开始匹配吗?不,这就要根据fail指针来确定从哪里开始匹配。所以fail指针指的是什么?
重点来袭:
fail指针表达的意思:

如果i是j的fail指针,那么word[i]就是word[j]的最长公共后缀(这里引用了某位B站up主的话)

继续看图

在这里插入图片描述

我红勾勾我就不打了哈,先标一下各点的编号,首先解释一下word[i]是什么意思。说得多不如举例子:
word[3]指的是she
word[6]指的是sa
word[7]指的是say
懂了吧[抛媚眼暗示]
那word[i]是word[j]的最长后缀又怎么解释?
这里我说一句正确的话:word[4]是word[2]最长后缀。
word[4]指的是h这个字母,word[2]指的是sh这两个字母,那么h是不是sh的最长后缀?[最长后缀是指在字典树中能找到的,并不是指长度为字母长度-1的那个,学过KMP的人应该都懂吧]

既然懂了fail指针(指向的是一个节点),我们来想想怎么求。直接暴力讲fail指针是哪个,不讲原因,一开始死记,打多了自然就明白了。听着,
*

把这个节点记为x,他的父亲节点记为y,则x的fail指针为

1.如果y的fail指针指向的那个节点里有x这个字母,那么x的fail指针就是y的fail指针指向的那个节点的x的字母的编号

2.如果y的fail指针指向的那个节点里没有x这个字母,那么x的fail指针就是根节点

注意:根节点和他下面那一层节点的fail指针都指向根节点

例子:h(编号2的h)的父亲节点(s)的fail指针(根节点)里有h这个字母,所以h(编号2的h)的fail指针指向的就是4

其实只要仔细体会,还不算特别难。

理解了fail指针干什么和怎么求,写代码就好些多了。
这里我们采用一个很棒(nán)很强(cháng)的算法——bfs(层次遍历)
众所周知,bfs一般都是用队列实现的,所以我们先预定两行代码
头文件:#include
建立fail指针的函数里面 queue que;

我们来整理一下实践思路
1.queue que;
2.遍历根节点的所有儿子,把他们的fail指针标为0,并把这些元素放进队列里面
3.循环while(!que.empty())
4. 取出队首元素,并且让队首元素出队;
5. 找到这个队首元素的所有儿子,把他们全部放进对了里,并建造他们的fail指针

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Python AC自动机是一个用于字符串匹配的算法,它可以高效地在一段文本中查找多个预定义的模式。它的实现可以使用多种库,其中包括ac自动机python和ahocorasick-python。 ac自动机python是一个对标准的ac自动机算法进行了完善和优化的实现,适用于主流的Python发行版,包括Python2和Python3。它提供了更准确的结果,并且可以通过pip进行安装,具体的安装方法可以参考官方文档或者使用pip install命令进行安装。 ahocorasick-python是另一个实现AC自动机的库,它也可以用于Python2和Python3。你可以通过官方网站或者GitHub源码获取更多关于该库的信息和安装指南。 对于AC自动机的使用,一个常见的例子是在一段包含m个字符的文章中查找n个单词出现的次数。要了解AC自动机,需要有关于模式树(字典树)Trie和KMP模式匹配算法的基础知识。AC自动机的算法包括三个步骤:构造一棵Trie树,构造失败指针和模式匹配过程。在构造好AC自动机后,可以使用它来快速地在文本中查找预定义的模式,并统计它们的出现次数。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [ahocorasick-python:AC自动机python的实现,并进行了优化。 主要修复了 查询不准确的问题](https://download.csdn.net/download/weixin_42122986/18825869)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *2* *3* [Python实现多模匹配——AC自动机](https://blog.csdn.net/zichen_ziqi/article/details/104246446)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值