AC自动机原理说明

1. AC自动机的功能:

用于多模匹配,所谓多模匹配,就是给定一个带匹配的字符串string,给定一个字典dictionary,dictionary中有多个字符串{ str1,str2, str3 … } 多模匹配就是要得到string字符串中出现了dictionary的哪些字符,且这些字符出现在了string中的哪个位置。

 

2. AC自动机的原理:

AC自动机的难点在于构建一个DFA(确定状态的有限状态自动机)。构建这个自动机分为两步:

1.      根据dictionary构建一棵前缀树trieTree。

2.      在对这棵trieTree进行BFS广度优先遍历的同时,为这棵树的节点增加边与fail指针。

 

2.1介绍什么是trieTree(前缀树)

         前缀树是一种存储单词的数据结构,从树根遍历到每一片树叶(或者某些中间结点)都是一个单词,两个单词如果有相同的前缀,那么在这棵树上,从根节点到这个相同的前缀结束之前,这两个单词所对应的路径是重叠的。


上图中,从根节点到每个红色的节点经过的路径上的字母组成了一个字典中的单词。

 

 

 

 

以下是trieTree节点的结构:

typedef struct trieNode {

         trieNode*next[KIND]; //初始化都为NULL ,该节点的孩子

         trieNode *fail;

         char value[50];//存放根节点到当前节点的路径上的值

         int finalSig; //表明是否是某段字符串的最后一个值

} trieNode; //trie树的节点

2.2 如何在广度优先搜索的基础上为trieTree加边,同时增加fail指针,形成一个DFA

1.      对trieTree根节点的直接孩子做特殊处理:

 

For( int i=0; i<KIND

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
有限自动机(Finite Automaton)是一种抽象的计算模型,它是由一个有限的状态集合、一个有限的输入字母表、一个转移函数和一个初始状态组成的。其能够接受一个输入字符串,并在每个状态上进行转移,最终根据终止状态的定义判断该字符串是否被该自动机接受。有限自动机是计算机科学中的一个重要概念,广泛应用于编译器、网络安全等领域。 AC自动机是一种基于有限自动机的字符串匹配算法,它可以在一个文本串中同时查找多个模式串。它的原理是将多个模式串构造成一个有限自动机,然后在文本串上进行状态转移。当某一状态为终止状态时,即表示匹配到了一个模式串。AC自动机的优点是可以大大降低匹配的时间复杂度,特别适用于需要匹配多个模式串的场合。 AC自动机的设计与实现主要包括以下步骤: 1. 构造Trie树:将所有模式串构造成一棵Trie树。 2. 构造Fail指针:对Trie树进行广度优先遍历,为每个节点构造Fail指针,使得每个节点的Fail指针指向其在Trie树上的最长后缀节点。 3. 进行状态转移:在文本串上进行状态转移,即从根节点开始,根据输入字符在Trie树上进行状态转移,同时根据Fail指针进行状态的回溯。 4. 输出匹配结果:当某一状态为终止状态时,即表示匹配到了一个模式串,将该模式串的编号输出即可。 AC自动机的时间复杂度为O(n+∑len[p]),其中n为文本串长度,len[p]为所有模式串的长度之和。由于AC自动机的实现较为复杂,因此通常采用现有的AC自动机库进行开发。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值