Trie(又称为字典树或前缀树)是一种用于存储字符串集合的树形数据结构,它能够高效地处理字符串相关的查询和操作。Trie的每个节点通常代表一个字符串的前缀,而从根节点到某一叶节点的路径代表一个完整的字符串。
基本思想:
- 节点结构:Trie中的每个节点包含一个子节点数组,通常大小为26(对应英文字母表的大小写),以及一个标记位(表示字符串的结束)。
- 前缀共享:Trie利用字符串之间的公共前缀来减少存储空间,所有具有相同前缀的字符串都在树中的同一条路径上共享节点。
操作步骤:
-
插入(Insert):
- 从根节点开始,遍历每个字符。
- 对于当前字符,如果它在节点的子节点数组中不存在,则创建一个新的节点,并将其加入数组。
- 移动到对应的子节点。
- 到达字符串末尾时,标记该节点为结束节点(或者增加一个标记位)。
- 所有共享前缀的字符串都会在树中共享相同的路径和节点。
-
查询(Search):
- 从根节点开始,遍历每个字符。
- 对于当前字符,查找节点的子节点数组中是否存在该字符。
- 如果存在,继续移动到对应的子节点;如果不存在,返回0或空,表示没有匹配的字符串。
- 如果到达叶节点,检查标记位,如果标记位为真,则表示找到了完整的字符串,返回1或字符串数量;否则返回0。
-
遍历(Traversal):
- 为了获取所有字符串,可以从根节点开始,对Trie进行深度优先遍历。
- 每当遇到一个标记为真的节点时,从根节点到当前节点的路径就代表一个完整的字符串。
- 将这些字符串收集起来,或者进行其他操作。
Trie特别适合处理字符串集合的查找、插入、删除等操作,尤其是当字符串集合中有很多共同前缀时。它在自动补全、拼写检查、IP路由等场景中有广泛应用。
问题描述
-
需要维护一个字符串集合。
-
支持两种操作:
I x
:向集合中插入字符串x
。Q x
:查询字符串x
在集合中出现的次数。
-
操作次数
N
,不超过10^5
次。 -
所有输入的字符串总长度不超过
10^5
。 -
字符串仅包含小写英文字母。
解决方案
- 使用Trie(字典树)数据结构来存储和管理字符串集合。
- 对于操作
I x
,将字符串x
插入到Trie中,并在对应的叶节点记录字符串的出现次数。 - 对于操作
Q x
,查询Trie以找到字符串x
的叶节点,并返回该节点上记录的出现次数。
具体步骤
- 初始化:创建一个空的Trie,用于存储字符串集合。
- 处理操作:
- 对于每个操作,根据类型执行相应的操作:
- 如果是
I x
,遍历字符串x
的每个字符,更新Trie,并在最后一个字符对应的节点上增加出现次数。 - 如果是
Q x
,遍历字符串x
来查找它在Trie中对应的叶节点,并返回该节点记录的出现次数。
- 如果是
- 对于每个操作,根据类型执行相应的操作:
- 插入优化:为了避免每个字符串都在Trie中创建完整的路径,可以在插入时跳过已经存在的前缀节点。
- 查询优化:在查询时,如果字符串的某个前缀在Trie中不存在,可以直接返回0,不需要遍历完整个字符串。
通过这种方式,我们可以有效地管理和查询字符串集合,同时保持操作的时间复杂度在可接受的范围内。
输入格式
- 第一行:包含一个整数
N
,表示接下来会有N
个操作指令。 - 接下来 N 行:每行包含一个操作指令,指令有两种形式:
I x
:表示插入字符串x
到集合中。Q x
:表示查询字符串x
在集合中出现的次数。
输出格式
- 对于每个查询指令
Q x
,输出一个整数,该整数表示字符串x
在集合中出现的总次数。 - 每个结果占一行。
输入样例:
5
I abc
Q abc
Q ab
I ab
Q ab
输出样例:
1
0
1
代码:
#include<iostream>
using namespace std;
// 定义常量N为Trie的最大节点数
const int N = 100010;
// son数组存储Trie的子节点,每个节点有26个小写字母的可能,对应到数组的索引
int son[N][26];
// cnt数组记录每个Trie节点的子串数量
int cnt[N];
// idx用于生成Trie节点的唯一id
int idx = 1;
// insert函数用于向Trie中插入一个字符串
void insert(string str)
{
int p = 0; // 初始时从根节点开始
for(int i = 0; i < str.size(); i++) // 遍历字符串的每个字符
{
int u = str[i] - 'a'; // 将字符转换为对应的数组索引
if(!son[p][u]) // 如果当前节点没有该子节点,则创建一个新的节点
son[p][u] = idx++;
p = son[p][u]; // 移动到子节点
}
cnt[p]++; // 到达字符串的末尾,增加该路径的计数
}
// query函数用于查询具有特定前缀的字符串数量
int query(string str)
{
int p = 0; // 从根节点开始
for(int i = 0; i < str.size(); i++) // 遍历查询字符串的每个字符
{
int u = str[i] - 'a'; // 转换字符
if(son[p][u]) // 如果存在对应的子节点
p = son[p][u]; // 移动到子节点
else return 0; // 如果没有对应的子节点,说明没有匹配的前缀,返回0
}
return cnt[p]; // 返回到达的节点的子串数量
}
int main()
{
int n; // 存储操作的数量
cin >> n;
while(n--) // 对于每个操作
{
string op, str; // op存储操作类型,str存储字符串
cin >> op >> str;
if(op == "I") // 如果操作类型为"I",表示插入字符串
insert(str);
else // 否则,如果操作类型不是"I",表示查询操作
cout << query(str) << endl; // 输出查询结果
}
return 0; // 程序结束
}
总结:
Trie字符串统计是一种高效的数据结构和算法,它通过构建一个字典树来存储和处理字符串集合,支持快速的插入和查询操作。在Trie中,每个节点代表一个字符串的前缀,而从根节点到叶节点的路径代表一个完整的字符串。插入操作通过创建或更新Trie节点来添加新字符串,而查询操作则通过遍历Trie来查找特定前缀的字符串数量。这种方法特别适合处理大量具有共同前缀的字符串,如自动补全、拼写检查等场景,因为它能够显著减少存储空间并提高查询效率。