【面经笔记】trie树/字典树

字典树构造及其优化与应用


字典树的核心就是空间换时间,利用字符串的公共前缀来避免无谓的字符串比较,降低查询时间。


Trie树的平均高度h为单词平均长度len,所以Trie树的查询复杂度为O(h)=O(len)

查询效率比哈希表高,对于统计/查询单词的问题,可将哈希表改进为字典树提升效率。


性质:
- 根结点不包含字符,除了根结点每个结点都包含一个字符
- 从根结点到某一结点的路径经过的字符连接起来就是该结点对于的字符串
- 查询和建树可以同时进行


例:

有一个1G大小的一个文件,里面每一行是一个词,词的大小不超过16字节,内存限制大小是1M。返回频数最高的100个词。

思路:首先要求得每个词的频率,1G无法放入内存,需要分成多个小文件,对每个小文件的词进行统计

(1)散列分治:顺序读取文件,对每个词,可以hash(x)P00(只要不小于1024个文件,是为了保证每个小文件可以放入内存), 这样被映射为5000个小文件,每个文件大概200K,每个文件最少1250个单词

(2)对于每个小文件,利用hash_map/字典树记录每个单词出现的频率,

(3)用100个元素的最小堆,选出每个文件中的频率最大的100个单词

(4)对这5000个小文件进行归并排序,选出最大的100个。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值