es实战-使用IK分词器进行词频统计

阿里云云栖号

已于 2022-01-30 14:06:27 修改

阅读量2k

点赞数

分类专栏：云栖号技术分享文章标签： elasticsearch 大数据 big data

于 2022-01-30 14:06:17 首次发布

本文链接：https://blog.csdn.net/yunqiinsight/article/details/122752433

版权

简介：通过IK分词器分词并生成词云。

本文主要介绍如何通过 IK 分词器进行词频统计。使用分词器对文章的词频进行统计，主要目的是实现如下图所示的词云功能，可以找到文章内的重点词汇。后续也可以对词进行词性标注，实体识别以及对实体的情感分析等功能。

词频统计服务具体模块如下：
数据输入：文本信息
数据输出：词 - 词频(TF-IDF等) - 词性等内容
使用的组件：分词器、语料库、词云展示组件等
功能点：白名单，黑名单，同义词等

现存的中文分词器有 IK、HanLP、jieba 和 NLPIR 等几种，不同分词器各有特点，本文使用 IK 实现，因为 ES 一般使用 medcl 等大佬封装的 IK 分词器插件作为中文分词器。
由于 ES 的 IK 分词器插件深度结合了 ES，仅对文本分词使用不到 ES 的内容，所以文本采用申艳超大佬版本的 IK。

1. IK 分词统计代码

IK 的代码相对比较简单，东西不多，将 String 拆分为词并统计代码如下：

单纯统计词频：

/**
 * 全文本词频统计
 *
 * @param content  文本内容
 * @param useSmart 是否使用 smart
 * @return 词，词频
 * @throws IOException
 */
private static Map<String, Integer> countTermFrequency(String content, Boolean useSmart) throws IOException {
    // 输出结果 Map
    Map<String, Integer> frequencies = new HashMap<>();
    if (StringUtils.isBlank(content)) {
        return frequencies;
    }
    DefaultConfig conf = new DefaultConfig();
    conf.setUseSmart(useSmart);
    // 使用 IKSegmenter 初始化文本信息并加载词典
    IKSegmenter ikSegmenter = new IKSegmenter(new StringReader(content), conf);
    Lexeme lexeme;
    while ((lexeme = ikSegmenter.next()) != null) {
        if (lexeme.getLexemeText().length() > 1) {// 过滤单字，也可以过滤其他内容，如数字和单纯符号等内容
            final String term = lexeme.getLexemeText();
            // Map 累加操作
            frequencies.compute(term, (k, v) -> {