![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Java-EE-开发
仙风灵渡
这个作者很懒,什么都没留下…
展开
-
Java 实现文章汉字关键词(违禁词)识别1.0
1.面向应用 最近公司新开发的电商平台,要实现一些违禁词过滤。需求很简单,就是从数据库中读取内容,包括资讯,产品,公司简介之类,看看是否存在违禁词,有的话就把这条记录的ID存入违禁词文档。可以应用于分词库匹配检索,如关键字、敏感词的标识,起到过滤的作用。 2.设计思想 采用了哈希表与树相结合的思想,哈希表中放的是关键词的首字符相同和以该首字符开始的树根节点。 3.方案的优缺点原创 2016-03-24 16:24:47 · 1118 阅读 · 0 评论 -
Java 实现文章汉字关键词(违禁词)识别2.0
说明:2.0相对1.0的算法改进 首先1.0是用父子节点树来保存树的,一个父对应多个子节点,这就不可避免要使用List来保存子节点,由于List的大小有限制,在1.0的时候加载的数据小于10万条,没有出现List溢出问题。 所以2.0放弃使用父子节点的树,在数据结构上使用了兄弟节点树,也放弃使用List树解决了List溢出问题同时效率与空间的利用提升了一个等级 1.面向应用 最近公司新原创 2016-03-29 16:54:56 · 4279 阅读 · 0 评论