[Daily Practice] -字典树(Trie)

题目描述

给定一个单词列表,我们将这个列表编码成一个索引字符串 S 与一个索引列表 A。
例如,如果这个列表是 [“time”, “me”, “bell”],我们就可以将其表示为 S = “time#bell#” 和 indexes = [0, 2, 5]。
对于每一个索引,我们可以通过从字符串 S 中索引的位置开始读取字符串,直到 “#” 结束,来恢复我们之前的单词列表。
那么成功对给定单词列表进行编码的最小字符串长度是多少呢?
该题目来源于leetcode,点击进入

读题

[“time”, “me”, “bell”]是待编码列表,"time#bell#"是编码结果,indexes = [0, 2, 5]对应的是三个单词在编码结果中的起始位置。

time#bell#
0123456789

示例里的"me"由于是"time"的后缀,所以me这个单词不用出现在最后的编码结果里,所以我们只要找到单词列表里,哪些单词被别的单词的后缀给包含了就可以了。所以这里可以考虑用字典树来解决。
字典树详解戳这里
下图演示了一个保存了7个单词的字典树的结构,7个单词分别是:“a”, “to”, “ten”, “be”, “by”,“bee”,“bye”
在这里插入图片描述
怎么理解这颗树呢?你从根节点走到叶子节点,尝试走一下所有的路径。你会发现,每条从根节点到叶子节点的路径都构成了单词(有的不需要走到叶子节点也是单词,比如 “be” 和 “by”)。trie树里的每个节点只需要保存当前的字符就可以了。

题解

public class Solution {
    public static void main(String[] args) {
        String[] strings = new String[]{"time","me","bell","la","ll"};
        System.out.println(minimumLengthEncoding(strings));
    }
    public static int minimumLengthEncoding(String[] words) {
        int len = 0;
        Trie trie = new Trie();
        // 先对单词列表根据单词长度由长到短排序
        // 排序的意义:比如示例中的["time", "me", "bell"]的逆序就是["emit", "em", "lleb"]。
        // 我们可以发现em是emit的前缀。所以"em"就可以忽略了。我们必须要先插入单词长的数组,否则会有问题。
        // 比如如果我先插入了"em",再插入"emit",会发现两个都可以插入进去,很显然是不对的,所以在插入之前需要先根据单词的长度由长到短排序
        Arrays.sort(words, (s1, s2) -> s2.length() - s1.length());
        // 单词插入trie,返回该单词增加的编码长度
        for (String word: words) {
            len += trie.insert(word);
        }
        return len;
    }
}
// 定义tire
class Trie {

    TrieNode root;

    public Trie() {
        root = new TrieNode();
    }

    public int insert(String word) {
        TrieNode cur = root;
        boolean isNew = false;
        // 因为题中要求的是某个单词为另外一个单词的后缀则不用计数,所以这里倒着插入单词
        for (int i = word.length() - 1; i >= 0; i--) {
            int c = word.charAt(i) - 'a';
            if (cur.children[c] == null) {
                isNew = true; // 是新单词
                cur.children[c] = new TrieNode();
            }
            // 这里很重要,如果读取到这个节点,取出这个节点的子节点用于后面循环查找
            cur = cur.children[c];
        }
        // 如果是新单词的话编码长度增加新单词的长度+1(多的"#"号),否则不变。
        return isNew? word.length() + 1: 0;
    }
}

class TrieNode {
    char val;
    // 字母一共26个,所以定义长度为26
    TrieNode[] children = new TrieNode[26];

    public TrieNode() {}
}

trie树的应用

搜索引擎
比如在百度搜索中输入“新冠”,它会给你提供一些新冠开头的搜索词供你搜索
在这里插入图片描述
分词
常见的分词库,或多或少会用到字典树,或者其它类似的存储字符串的树形数据结构(比如"双数组trie树")。原因就是因为它能提供良好的前缀查询(一些分词算法需要大量调用该方法)。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值