Java 实现文章汉字关键词(违禁词)识别1.0

本文介绍了如何使用Java实现文章中的汉字违禁词过滤和关键词识别。通过结合哈希表和树的数据结构,提高了匹配效率并节省内存。具体实现包括基于首字符的HashMap索引和树形结构存储关键词,以及利用Excel读取工具包处理违禁词库。
摘要由CSDN通过智能技术生成

1.面向应用
最近公司新开发的电商平台,要实现一些违禁词过滤。需求很简单,就是从数据库中读取内容,包括资讯,产品,公司简介之类,看看是否存在违禁词,有的话就把这条记录的ID存入违禁词文档。可以应用于分词库匹配检索,如关键字、敏感词的标识,起到过滤的作用。
2.设计思想
采用了哈希表与树相结合的思想,哈希表中放的是关键词的首字符相同和以该首字符开始的树根节点。
这里写图片描述
3.方案的优缺点
首先使用了树来保存违禁词,节省了前缀相同汉字的内存空间,以HashMap作为索引提高了匹配的效率。继承了HashMap的快速定位优点,在以树的形式保存关键字,比HashMap节省空间。又因为不同汉字开头的是不同的小树,小树的查询效率比所有的节点挂载在大树上的效率有更大的提高。

节点类
TreeNode.Class

package word;

import java.io.Serializable;
import java.util.ArrayList;
import java.util.List;

public class TreeNode implements Serializable {
   
    private int isLast;                 //是否是关键字结束节点
    private String nodeName;            //节点名
    private TreeNode parentNode;        //父节点
    private List<TreeNode> childList;   //子节点

    public TreeNode() {
        initChildList();
    }

    public void initChildList() {
        if (childList == null)
            childList = new ArrayList<TreeNode>();
    }
    public int getIsLast() {
  return isLast;}

    public void setIsLast(int isLast) {
  this.isLast = isLast;}

    public String getNodeName() {
  return nodeName;}

    public void setNodeName(String nodeName) {
  this.nodeName = nodeName;}

    public TreeNode getParentNode() {
  return parentNode;}

    public void setParentNode(TreeNode parentNode) {
  this.parentNode = parentNode;}

    public List<TreeNode> getChildList() {
  return childList;}

    public void setChildList(List<TreeNode> childList) {
  this.childList = childList;}
}

树的操作类
TreeHelper.Class

package word;

import jxl.Cell;
import jxl.Sheet;
import jxl.Workbook;

import java.io.*;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.List;
import java.util.Map;

/**
 * Created by Administrator on 2016/3/22.
 *
 * @version $Revision$ $Date$
 *          2016/3/22
 *          14:09
 * @author: Administrator
 * @since 3.0
 */
public class TreeHelper {
   
    private  Boolean isExit;            //是否存在违禁词
    private  int maxLength;             //记录树的最大长度
    private  int index;                 //最大匹配位置
    private  Map<String,TreeNode> map;  //树根索引
    private  List<String> indexList;    //记录关键词的位置
    public 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值