逆向最长匹配算法的实现

   中文分词技术属于自然语言处理技术范畴,对于一句话,人可以通过自己的知识来明白哪些是词,哪些不是词,但如何让计算机也能理解?其处理过程就是分词算法。现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。

       逆向最长匹配法是基于字符串匹配的一种分词算法,即按从右至左的顺序对句子循环扫描字符串,并与所提供的关键词表进行比较,如存在则提取出该串作为关键词。相比较正向最大匹配法,逆向匹配的分词精度略高于正向匹配。

     算法的程序实现核心代码如下:


  while (startIndex >= 0) { //循环取字符串
      str = title.substring(startIndex, endIndex); 
      for (int i = 0; i < str.length(); i++) {
          ss = title.substring(startIndex + i, endIndex);
          if (matchlist.contains(ss)
               && this.ifexit(words, ss, type)) { //去重
               if (type == TERM_TYPE) {
                    wdto = new WordModel();//dto封装了关键词及其权重
                    wdto.setWord(ss);
                    wdto.setValue(this.computeWithTfx(ss, title2));//计算权重
                    words.add(wdto);
                } else {
                 words.add(ss);//不需要计算权重则add字符串
                }
           title = title.substring(0, startIndex + i);
           if (title.length() > maxlength) {
               startIndex = title.length() - maxlength;
               endIndex = title.length();
           } else {
               startIndex = 0;
               endIndex = title.length();
           }
             break;
           }
           if (i == str.length() - 1) {//若匹配不成功则移位截取新串
               startIndex = startIndex - 1;
               endIndex = endIndex - 1;
           }
       }
  }
 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值