Trie字符串统计

Hello杰

于 2024-04-10 21:57:27 发布

阅读量461

点赞数 25

文章标签：深度优先算法

本文链接：https://blog.csdn.net/weixin_55711811/article/details/137612501

版权

Trie（又称为字典树或前缀树）是一种用于存储字符串集合的树形数据结构，它能够高效地处理字符串相关的查询和操作。Trie的每个节点通常代表一个字符串的前缀，而从根节点到某一叶节点的路径代表一个完整的字符串。

基本思想：

节点结构：Trie中的每个节点包含一个子节点数组，通常大小为26（对应英文字母表的大小写），以及一个标记位（表示字符串的结束）。
前缀共享：Trie利用字符串之间的公共前缀来减少存储空间，所有具有相同前缀的字符串都在树中的同一条路径上共享节点。

操作步骤：

插入（Insert）：
- 从根节点开始，遍历每个字符。
- 对于当前字符，如果它在节点的子节点数组中不存在，则创建一个新的节点，并将其加入数组。
- 移动到对应的子节点。
- 到达字符串末尾时，标记该节点为结束节点（或者增加一个标记位）。
- 所有共享前缀的字符串都会在树中共享相同的路径和节点。
查询（Search）：
- 从根节点开始，遍历每个字符。
- 对于当前字符，查找节点的子节点数组中是否存在该字符。
- 如果存在，继续移动到对应的子节点；如果不存在，返回0或空，表示没有匹配的字符串。
- 如果到达叶节点，检查标记位，如果标记位为真，则表示找到了完整的字符串，返回1或字符串数量；否则返回0。
遍历（Traversal）：
- 为了获取所有字符串，可以从根节点开始，对Trie进行深度优先遍历。
- 每当遇到一个标记为真的节点时，从根节点到当前节点的路径就代表一个完整的字符串。
- 将这些字符串收集起来，或者进行其他操作。

Trie特别适合处理字符串集合的查找、插入、删除等操作，尤其是当字符串集合中有很多共同前缀时。它在自动补全、拼写检查、IP路由等场景中有广泛应用。

问题描述

需要维护一个字符串集合。
支持两种操作：
- I x：向集合中插入字符串 x。
- Q x：查询字符串 x 在集合中出现的次数。
操作次数 N，不超过 10^5 次。
所有输入的字符串总长度不超过 10^5。
字符串仅包含小写英文字母。

解决方案

使用Trie（字典树）数据结构来存储和管理字符串集合。
对于操作 I x，将字符串 x 插入到Trie中，并在对应的叶节点记录字符串的出现次数。
对于操作 Q x，查询Trie以找到字符串 x 的叶节点，并返回该节点上记录的出现次数。

具体步骤

初始化：创建一个空的Trie，用于存储字符串集合。
处理操作：
- 对于每个操作，根据类型执行相应的操作：
  - 如果是 I x，遍历字符串 x 的每个字符，更新Trie，并在最后一个字符对应的节点上增加出现次数。
  - 如果是 Q x，遍历字符串 x 来查找它在Trie中对应的叶节点，并返回该节点记录的出现次数。
插入优化：为了避免每个字符串都在Trie中创建完整的路径，可以在插入时跳过已经存在的前缀节点。
查询优化：在查询时，如果字符串的某个前缀在Trie中不存在，可以直接返回0，不需要遍历完整个字符串。

通过这种方式，我们可以有效地管理和查询字符串集合，同时保持操作的时间复杂度在可接受的范围内。

输入格式

第一行：包含一个整数 N，表示接下来会有 N 个操作指令。
接下来 N 行：每行包含一个操作指令，指令有两种形式：
- I x：表示插入字符串 x 到集合中。
- Q x：表示查询字符串 x 在集合中出现的次数。

输出格式

对于每个查询指令 Q x，输出一个整数，该整数表示字符串 x 在集合中出现的总次数。
每个结果占一行。

输入样例：

5
I abc
Q abc
Q ab
I ab
Q ab

输出样例：

1
0
1

代码：

#include<iostream>
using namespace std;

// 定义常量N为Trie的最大节点数
const int N = 100010;

// son数组存储Trie的子节点，每个节点有26个小写字母的可能，对应到数组的索引
int son[N][26];
// cnt数组记录每个Trie节点的子串数量
int cnt[N];
// idx用于生成Trie节点的唯一id
int idx = 1;

// insert函数用于向Trie中插入一个字符串
void insert(string str)
{
    int p = 0; // 初始时从根节点开始
    for(int i = 0; i < str.size(); i++) // 遍历字符串的每个字符
    {
        int u = str[i] - 'a'; // 将字符转换为对应的数组索引
        if(!son[p][u]) // 如果当前节点没有该子节点，则创建一个新的节点
            son[p][u] = idx++;
        p = son[p][u]; // 移动到子节点
    }
    cnt[p]++; // 到达字符串的末尾，增加该路径的计数
}

// query函数用于查询具有特定前缀的字符串数量
int query(string str)
{
    int p = 0; // 从根节点开始
    for(int i = 0; i < str.size(); i++) // 遍历查询字符串的每个字符
    {
        int u = str[i] - 'a'; // 转换字符
        if(son[p][u]) // 如果存在对应的子节点
            p = son[p][u]; // 移动到子节点
        else return 0; // 如果没有对应的子节点，说明没有匹配的前缀，返回0
    }
    return cnt[p]; // 返回到达的节点的子串数量
}

int main()
{
    int n; // 存储操作的数量
    cin >> n;
    while(n--) // 对于每个操作
    {
        string op, str; // op存储操作类型，str存储字符串
        cin >> op >> str;
        if(op == "I") // 如果操作类型为"I"，表示插入字符串
            insert(str);
        else // 否则，如果操作类型不是"I"，表示查询操作
            cout << query(str) << endl; // 输出查询结果
    }
    return 0; // 程序结束
}

总结：

Trie字符串统计是一种高效的数据结构和算法，它通过构建一个字典树来存储和处理字符串集合，支持快速的插入和查询操作。在Trie中，每个节点代表一个字符串的前缀，而从根节点到叶节点的路径代表一个完整的字符串。插入操作通过创建或更新Trie节点来添加新字符串，而查询操作则通过遍历Trie来查找特定前缀的字符串数量。这种方法特别适合处理大量具有共同前缀的字符串，如自动补全、拼写检查等场景，因为它能够显著减少存储空间并提高查询效率。

Hello杰

关注

25
点赞
踩
21

收藏

觉得还不错? 一键收藏
0
评论
Trie字符串统计

Trie是一种树形数据结构，适用于字符串的快速查找、插入和删除。它通过将字符串的每个字符映射到树的不同分支来实现高效的前缀共享，优化了字符串集合的操作。Trie的每个节点代表一个字符串的前缀，整棵树存储了所有字符串的集合。插入操作通过沿着树添加字符路径来完成，而查询操作则通过遍历树直到找到完整的字符串。Trie广泛应用于需要频繁处理字符串前缀的场景，如搜索引擎的提示功能和网络路由。
复制链接

扫一扫