【ansj分词,英文被转换为了小写】

ansj分词,英文被转换为了小写


在这里插入图片描述

没有识别到词表

因为数据是大写,词表是大写,ansj将数据转换成了小写,无法匹配,词表失效。将词表改为小写就可以成功分词。

这里ansj我们的词表就是一列的词,没有涉及词频和权重

解决方案

但是数据想要保持原始,不想进行转换
MyStaticValue.isRealName = true ;即可
在这里插入图片描述

jieba分词

在这里插入图片描述
import com.huaban.analysis.jieba.JiebaSegmenter;
import com.huaban.analysis.jieba.WordDictionary;
import junit.framework.TestCase;
import org.junit.Test;

import java.nio.file.Paths;

public class jieba111 extends TestCase {
private JiebaSegmenter segmenter = new JiebaSegmenter();
String sentences = “你猜窝窝头好吃不”;

/**
 * 读取conf目录下所有的自定义词库**.dict文件。
 */
@Override
protected void setUp() throws Exception {
    WordDictionary.getInstance().init(Paths.get("conf"));
}

@Test
public void testCutForSearch() {
    System.out.println(segmenter.sentenceProcess(sentences));
}

}

大写英文如何控制保持原样,默认会转成小写:
https://github.com/NLPchina/ansj_seg/issues/168

使用jieba维护自定义词、停用词表
https://blog.csdn.net/daizongxue/article/details/78611025

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值