Trie树就是字典树。我们在查字典时,不可能是看到个单词然后从第一页开始顺序查找,找到所需单词,一定是根据共享前缀来不断缩小查找范围,也就是如果查air,我们先查找a,再查找ai,再查找air,而ai开头的还有avian,那么这两个单词共享前缀ai,那么后面不同的作为子树,就形成了一个字典树的结构。
下面主要说一说实现和应用。
目录
Trie树
上面就是是一个简单的字典树,从根节点a向下走到任何一个点都可以是一个单词,比如ab,ac,abc。
在查询的时候,如果要查询aba,那么可以先查询a,再查询ab,再查询aba,发现可以找到,要是abd那么就显然无法找到。
插入单词
接下来是如何构造一个Trie树。
由于每个单词的第一个单词是不确定的,所以可能会需要建a-z为根节点的树,这是麻烦的,所以建立root节点,作为公共根节点。Trie树实际上可以看做是有向图,每个节点指向自己的子节点,建立的过程实际上就是建图的过程。
考虑为每个节点设定一条链表,因此所有节点可以构成一个链表数组,而这个链表后面连接这个点作为父节点,所指向的点的链表位置。
这么说很抽象,举个例子,比如ab,我们要为每个节点创建链表,多个链表形成链表数组,我们要为a创建一条链表,所在链表数组位置是1,后面连接b,b节点在链表数组所在数组位置是2,那么a节点链表的链接b节点,值就是2(1->2)。
这么讲可能还是很抽象,那么就说实际的操作。在实际操作中,为了方便,一般不会真正去写链表,实际上会用二维数组来代替(就是上面画的结构),一行就代表是一个链表,每个数值就存储这个点所连向的点的链表在哪行。每次对一个单词进行逐词建立,遇到了一个点没有建立节点(也就是没有指向的链表),那么在最后追加一条,等于说建立了节点。最后为了判断每个节点是否有单词在这里结束,在最后一个单词节点的位置要做上标记,引入cnt,遇到一次在这个点结束,就给这个点+1,最后看这个点cnt要是为0,那么就代表没有单词在这里结束。
代码:
const int N = 1000050;
int trie[N][26];
int cnt[N];//记录以每条链表起点作为结尾的个数
int id;
void insert(string s)
{
int p = 0;
for (int i = 0; i < s.size(); i++)
{
int x = s[i] - 'a';
if (trie[p][x] == 0) trie[p][x] = ++id;//如果这个点还没有建立属于自己的链表,那么在最后追加一个新链表,标记位置
p = trie[p][x];//记录这条个点引导链表所在位置,和字母维度结合可以实现定位任何一点
/*
trie实际上也是一个建边过程,但是一个点不一定只出现在一个地方,也就是a会被分为a1,a2,a3...散布于图的不同位置
建立二维数组,每一行表示一个起点,和列维度结合,定位特定字母,存储这个点所连向的点在哪行
比如当前是a,在0行,连向a,b,第一行存储了这个a所连的,第二行b连的,那么trie[0][a]=1,trie[1]=2
当前存储了aa,ab
*/
}
cnt[p]++;//表示录完了一个单词,然后这个词所在的点+1,以此来看有没有单词在这个点结束,要是有的话那么就不为0
}
查找单词
要想查找一个单词是否出现,那么就单词顺序找下来,要是发现找到一个点没有点从这个点作为起点,那么后面就找肯定不到了,就比如要找abc,找到b发现没有后续了,那么c也就无从谈起,如果找到了c,那么就看有没有节点以c结尾,如果有,那么也是算作有的,这就用到了上面说的cnt标记。
代码:
int find(string s)
{
int p = 0;
for (int i = 0; i < s.size(); i++)
{
int x = s[i] - 'a';
if (trie[p][x] == 0)return 0;//如果找到终点了,也就是都不存在这个点为起点的,那么可以结束了
p = trie[p][x];
}
return cnt[p];//看看有没有找到,因为有点在这里结束那么cnt[p]!=0
}
应用
题目链接:[TJOI2010] 阅读理解 - 洛谷
这道题需要我们说出每个单词出现的行数,那么首先先构造trie树,因为要说出行,所以此时仅仅每个点作为标记结束点的次数,就不能实现功能,所以要标记每个点作为结束点的行数,所以引入bitset类型(因为开bool会爆内存,开bitset省空间)标记哪些行出现了这个词作为结束词,后面输出。
代码:
#include<stdio.h>
#include<algorithm>
#include<string.h>
using namespace std;
#define N 5100000
#include <bitset>
bitset<1001> b[N];//开bool爆内存,开bitset节省空间,功能是标记这个节点在哪一行出现作为结尾
int trie[N][26],cnt;//二维数组存储,每行是一个节点,cnt记录节点数
int n;
void insert(char a[], int row)
{
int st = 0;//st链表代表当前所在起点
for (int i = 1; i <= strlen(a + 1); i++)
{
int x = a[i] - 'a';
if (!trie[st][x])trie[st][x] = ++cnt;
st = trie[st][x];
}
b[st][row] = 1;//表示这个字母在这一行出现了
}
int display(char a[])
{
int st = 0;
for (int i = 1; i <= strlen(a + 1); i++)
{
int x = a[i] - 'a';
if (trie[st][x] == 0)return 0;
st = trie[st][x];
}
return st;
}
int main()
{
scanf("%d", &n);
int num;
char a[22];
for (int i = 1; i <= n; i++)//行
{
//printf("start:%d\n", i);
scanf("%d", &num);//这一行的单词数
for (int j = 1; j <= num; j++)//每个单词
{
scanf("%s", a+1);
//printf("%s\n", a+1);
insert(a, i);//插入单词
}
//printf("end:%d\n", i);
}
int m;
scanf("%d", &m);
for (int i = 1; i <= m; i++)
{
scanf("%s", a + 1);
int st = display(a);//找到这个单词作为结束点出现在链表数组中的位置
if (st)//出现了
{
for (int j = 1; j <= 1000; j++)
if (b[st][j])
printf("%d ", j);
}
printf("\n");
}
return 0;
}