Trie树的构造与应用

    Trie树就是字典树。我们在查字典时,不可能是看到个单词然后从第一页开始顺序查找,找到所需单词,一定是根据共享前缀来不断缩小查找范围,也就是如果查air,我们先查找a,再查找ai,再查找air,而ai开头的还有avian,那么这两个单词共享前缀ai,那么后面不同的作为子树,就形成了一个字典树的结构。

    下面主要说一说实现和应用。

目录

Trie树

插入单词

查找单词

 应用


Trie树

    上面就是是一个简单的字典树,从根节点a向下走到任何一个点都可以是一个单词,比如ab,ac,abc。

    在查询的时候,如果要查询aba,那么可以先查询a,再查询ab,再查询aba,发现可以找到,要是abd那么就显然无法找到。

插入单词

   接下来是如何构造一个Trie树。 

   由于每个单词的第一个单词是不确定的,所以可能会需要建a-z为根节点的树,这是麻烦的,所以建立root节点,作为公共根节点。Trie树实际上可以看做是有向图,每个节点指向自己的子节点,建立的过程实际上就是建图的过程。

    考虑为每个节点设定一条链表,因此所有节点可以构成一个链表数组,而这个链表后面连接这个点作为父节点,所指向的点的链表位置。

     这么说很抽象,举个例子,比如ab,我们要为每个节点创建链表,多个链表形成链表数组,我们要为a创建一条链表,所在链表数组位置是1,后面连接b,b节点在链表数组所在数组位置是2,那么a节点链表的链接b节点,值就是2(1->2)。

    这么讲可能还是很抽象,那么就说实际的操作。在实际操作中,为了方便,一般不会真正去写链表,实际上会用二维数组来代替(就是上面画的结构),一行就代表是一个链表,每个数值就存储这个点所连向的点的链表在哪行。每次对一个单词进行逐词建立,遇到了一个点没有建立节点(也就是没有指向的链表),那么在最后追加一条,等于说建立了节点。最后为了判断每个节点是否有单词在这里结束,在最后一个单词节点的位置要做上标记,引入cnt,遇到一次在这个点结束,就给这个点+1,最后看这个点cnt要是为0,那么就代表没有单词在这里结束。

代码:

const int N = 1000050;
int trie[N][26];
int cnt[N];//记录以每条链表起点作为结尾的个数
int id;

void insert(string s)
{
	int p = 0;
	for (int i = 0; i < s.size(); i++)
	{
		int x = s[i] - 'a';
		if (trie[p][x] == 0) trie[p][x] = ++id;//如果这个点还没有建立属于自己的链表,那么在最后追加一个新链表,标记位置
		p = trie[p][x];//记录这条个点引导链表所在位置,和字母维度结合可以实现定位任何一点
		/*
		trie实际上也是一个建边过程,但是一个点不一定只出现在一个地方,也就是a会被分为a1,a2,a3...散布于图的不同位置
		建立二维数组,每一行表示一个起点,和列维度结合,定位特定字母,存储这个点所连向的点在哪行
		比如当前是a,在0行,连向a,b,第一行存储了这个a所连的,第二行b连的,那么trie[0][a]=1,trie[1]=2
		当前存储了aa,ab
		*/
	}
	cnt[p]++;//表示录完了一个单词,然后这个词所在的点+1,以此来看有没有单词在这个点结束,要是有的话那么就不为0
}

查找单词

    要想查找一个单词是否出现,那么就单词顺序找下来,要是发现找到一个点没有点从这个点作为起点,那么后面就找肯定不到了,就比如要找abc,找到b发现没有后续了,那么c也就无从谈起,如果找到了c,那么就看有没有节点以c结尾,如果有,那么也是算作有的,这就用到了上面说的cnt标记。

 代码:

int  find(string s)
{
	int p = 0;
	for (int i = 0; i < s.size(); i++)
	{
		int x = s[i] - 'a';
		if (trie[p][x] == 0)return 0;//如果找到终点了,也就是都不存在这个点为起点的,那么可以结束了
		p = trie[p][x];
	}
	return cnt[p];//看看有没有找到,因为有点在这里结束那么cnt[p]!=0
}

 应用

题目链接:[TJOI2010] 阅读理解 - 洛谷 

     这道题需要我们说出每个单词出现的行数,那么首先先构造trie树,因为要说出行,所以此时仅仅每个点作为标记结束点的次数,就不能实现功能,所以要标记每个点作为结束点的行数,所以引入bitset类型(因为开bool会爆内存,开bitset省空间)标记哪些行出现了这个词作为结束词,后面输出。

代码:

#include<stdio.h>
#include<algorithm>
#include<string.h>
using namespace std;
#define N 5100000
#include <bitset>

bitset<1001> b[N];//开bool爆内存,开bitset节省空间,功能是标记这个节点在哪一行出现作为结尾
int trie[N][26],cnt;//二维数组存储,每行是一个节点,cnt记录节点数
int n;

void insert(char a[], int row)
{
	int st = 0;//st链表代表当前所在起点
	for (int i = 1; i <= strlen(a + 1); i++)
	{
		int x = a[i] - 'a';
		if (!trie[st][x])trie[st][x] = ++cnt;
		st = trie[st][x];
	}
	b[st][row] = 1;//表示这个字母在这一行出现了
}

int display(char a[])
{
	int st = 0;
	for (int i = 1; i <= strlen(a + 1); i++)
	{
		int x = a[i] - 'a';
		if (trie[st][x] == 0)return 0;
		st = trie[st][x];
	}
	return st;
}

int main()
{
	scanf("%d", &n);
	int num;
	char a[22];
	for (int i = 1; i <= n; i++)//行
	{
		//printf("start:%d\n", i);
		scanf("%d", &num);//这一行的单词数
		for (int j = 1; j <= num; j++)//每个单词
		{
			scanf("%s", a+1);
			//printf("%s\n", a+1);
			insert(a, i);//插入单词
		}
		//printf("end:%d\n", i);
	}
	int m;
	scanf("%d", &m);
	for (int i = 1; i <= m; i++)
	{
		scanf("%s", a + 1);
		int st = display(a);//找到这个单词作为结束点出现在链表数组中的位置
		if (st)//出现了
		{
			for (int j = 1; j <= 1000; j++)
				if (b[st][j])
					printf("%d ", j);
		}
		printf("\n");
	}
	return 0;
}

局部代码参考自:【数据结构】字典树TrieTree图文详解_Avalon Demerzel的博客-CSDN博客_字典树 

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值