Trie字符串统计

Trie(又称为字典树或前缀树)是一种用于存储字符串集合的树形数据结构,它能够高效地处理字符串相关的查询和操作。Trie的每个节点通常代表一个字符串的前缀,而从根节点到某一叶节点的路径代表一个完整的字符串。

基本思想:

  • 节点结构:Trie中的每个节点包含一个子节点数组,通常大小为26(对应英文字母表的大小写),以及一个标记位(表示字符串的结束)。
  • 前缀共享:Trie利用字符串之间的公共前缀来减少存储空间,所有具有相同前缀的字符串都在树中的同一条路径上共享节点。

操作步骤:

  1. 插入(Insert)

    • 从根节点开始,遍历每个字符。
    • 对于当前字符,如果它在节点的子节点数组中不存在,则创建一个新的节点,并将其加入数组。
    • 移动到对应的子节点。
    • 到达字符串末尾时,标记该节点为结束节点(或者增加一个标记位)。
    • 所有共享前缀的字符串都会在树中共享相同的路径和节点。
  2. 查询(Search)

    • 从根节点开始,遍历每个字符。
    • 对于当前字符,查找节点的子节点数组中是否存在该字符。
    • 如果存在,继续移动到对应的子节点;如果不存在,返回0或空,表示没有匹配的字符串。
    • 如果到达叶节点,检查标记位,如果标记位为真,则表示找到了完整的字符串,返回1或字符串数量;否则返回0。
  3. 遍历(Traversal)

    • 为了获取所有字符串,可以从根节点开始,对Trie进行深度优先遍历。
    • 每当遇到一个标记为真的节点时,从根节点到当前节点的路径就代表一个完整的字符串。
    • 将这些字符串收集起来,或者进行其他操作。

Trie特别适合处理字符串集合的查找、插入、删除等操作,尤其是当字符串集合中有很多共同前缀时。它在自动补全、拼写检查、IP路由等场景中有广泛应用。

问题描述

  • 需要维护一个字符串集合。

  • 支持两种操作:

    • I x:向集合中插入字符串 x
    • Q x:查询字符串 x 在集合中出现的次数。
  • 操作次数 N,不超过 10^5 次。

  • 所有输入的字符串总长度不超过 10^5

  • 字符串仅包含小写英文字母。

解决方案

  • 使用Trie(字典树)数据结构来存储和管理字符串集合。
  • 对于操作 I x,将字符串 x 插入到Trie中,并在对应的叶节点记录字符串的出现次数。
  • 对于操作 Q x,查询Trie以找到字符串 x 的叶节点,并返回该节点上记录的出现次数。

具体步骤

  1. 初始化:创建一个空的Trie,用于存储字符串集合。
  2. 处理操作
    • 对于每个操作,根据类型执行相应的操作:
      • 如果是 I x,遍历字符串 x 的每个字符,更新Trie,并在最后一个字符对应的节点上增加出现次数。
      • 如果是 Q x,遍历字符串 x 来查找它在Trie中对应的叶节点,并返回该节点记录的出现次数。
  3. 插入优化:为了避免每个字符串都在Trie中创建完整的路径,可以在插入时跳过已经存在的前缀节点。
  4. 查询优化:在查询时,如果字符串的某个前缀在Trie中不存在,可以直接返回0,不需要遍历完整个字符串。

通过这种方式,我们可以有效地管理和查询字符串集合,同时保持操作的时间复杂度在可接受的范围内。

输入格式

  • 第一行:包含一个整数 N,表示接下来会有 N 个操作指令。
  • 接下来 N 行:每行包含一个操作指令,指令有两种形式:
    • I x:表示插入字符串 x 到集合中。
    • Q x:表示查询字符串 x 在集合中出现的次数。

输出格式

  • 对于每个查询指令 Q x,输出一个整数,该整数表示字符串 x 在集合中出现的总次数。
  • 每个结果占一行。
输入样例:
5
I abc
Q abc
Q ab
I ab
Q ab
输出样例:
1
0
1

代码:

#include<iostream>
using namespace std;

// 定义常量N为Trie的最大节点数
const int N = 100010;

// son数组存储Trie的子节点,每个节点有26个小写字母的可能,对应到数组的索引
int son[N][26];
// cnt数组记录每个Trie节点的子串数量
int cnt[N];
// idx用于生成Trie节点的唯一id
int idx = 1;

// insert函数用于向Trie中插入一个字符串
void insert(string str)
{
    int p = 0; // 初始时从根节点开始
    for(int i = 0; i < str.size(); i++) // 遍历字符串的每个字符
    {
        int u = str[i] - 'a'; // 将字符转换为对应的数组索引
        if(!son[p][u]) // 如果当前节点没有该子节点,则创建一个新的节点
            son[p][u] = idx++;
        p = son[p][u]; // 移动到子节点
    }
    cnt[p]++; // 到达字符串的末尾,增加该路径的计数
}

// query函数用于查询具有特定前缀的字符串数量
int query(string str)
{
    int p = 0; // 从根节点开始
    for(int i = 0; i < str.size(); i++) // 遍历查询字符串的每个字符
    {
        int u = str[i] - 'a'; // 转换字符
        if(son[p][u]) // 如果存在对应的子节点
            p = son[p][u]; // 移动到子节点
        else return 0; // 如果没有对应的子节点,说明没有匹配的前缀,返回0
    }
    return cnt[p]; // 返回到达的节点的子串数量
}

int main()
{
    int n; // 存储操作的数量
    cin >> n;
    while(n--) // 对于每个操作
    {
        string op, str; // op存储操作类型,str存储字符串
        cin >> op >> str;
        if(op == "I") // 如果操作类型为"I",表示插入字符串
            insert(str);
        else // 否则,如果操作类型不是"I",表示查询操作
            cout << query(str) << endl; // 输出查询结果
    }
    return 0; // 程序结束
}

 

总结:

Trie字符串统计是一种高效的数据结构和算法,它通过构建一个字典树来存储和处理字符串集合,支持快速的插入和查询操作。在Trie中,每个节点代表一个字符串的前缀,而从根节点到叶节点的路径代表一个完整的字符串。插入操作通过创建或更新Trie节点来添加新字符串,而查询操作则通过遍历Trie来查找特定前缀的字符串数量。这种方法特别适合处理大量具有共同前缀的字符串,如自动补全、拼写检查等场景,因为它能够显著减少存储空间并提高查询效率。

  • 25
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值