分词器
悟能的师兄
有竞者、事竟成
展开
-
Java 处理字符串中的敏感词 配置模式
最新有个小业务需要用到批量去除敏感词,调用量非常频繁且对性能要求较大,且关键字是随时会增加的,因此也就不能使用简单的替换,而是需用用到配置文件方式处理。两个类,一段配置文件1、初始化敏感词库,将敏感词加入到HashMap中,构建DFA算法模型package com.zhx.guides.collect.util.object.word;import java.util.HashMap;import java.util.Iterator;import java.util.List;im原创 2020-05-22 23:14:15 · 7211 阅读 · 2 评论 -
Elasticsearch之分词器查询分词效果
0、引言Elasticsearch之分词器中文的我们一般使用IK,如果没有指定分词器。默认使用的是standard分词。IK分词能将中文分成词组:standard分词则会将每个中文分成一个单个的词:其他分词器:ansj_index ......优劣:IK 分词能够根据词库创建有效的分词索引,搜索的效率和准确率很高。劣势:有小部分词如果不存在词库,则不会被分词,因此在查询的...原创 2019-07-31 17:20:54 · 29680 阅读 · 2 评论