ansj分词器的简介,以及各个分词调用方式的使用说明

ansj分词器是使用java语言进行编程实现的中文分词器,分词速度达到每秒大约200万次左右,准确率高达95%以上,目前实现了用户自定义字典,数字识别,机构名识别,人名识别,新词发现等功能,可以应用到自然语言处理等方面,对于各大项目都能够使用。

baseAnalysis基本分词,保证了最基本的分词,所涉及到的大约10万词,但查找速率快,准确率高

toAnalysis精准分词,它在易用性稳定性准确性上都是不错的平衡

NLPAnalysis nlp分词,具有用户自定义字典,数字识别,人名识别,地名识别,机构名识别,新词发现的功能,分词最为准确

indexAnalysis面向索引分词,用于索引环节的中文分词

dicAnalysis 自定义词典分词,自己定义所需的词典,当你在进行分词时候,会优先使用你自己定义的词进行分词。

 

 

Ansj中文分词是一个完全开源的、基于Google语义模型+条件随机场模型的中文分词的Java实现,具有使用简单、开箱即用等特点。 Ansj分词速度达到每秒钟大约100万字左右(Mac Air下测试),准确率能达到96%以上。 Ansj 1.41版本的新增功能 •增加了调用文档说明 •调整了关键词抽取 •增加了摘要计算 •关键词标红 •大幅度提高了命名实体识别 •对于词性标注提供了基于概率的快速标注方式.依旧保留给予隐马模型的词性标注. •修复了目前已知的所有bug •大量修正了之前默认用户自定义词典中词性错误 •提供了给予crf++ wapiti等条件随即场工具的调用接口.用户可以及自定义训练model •增加了目前对最新版的Lucene、Solr、Elasticsearch开源第三方搜索框架的分词插件 效果测试——新词发现 引用 1. 未登陆词识别 example:NER:我要碎觉吊丝要小心!城西嘉南公寓 result:命名/v 实体/n ner/en : 我/r 要/v 碎觉/nw 吊丝/n 要/v 小心/v !/w 城西嘉南公寓/nw 2. 中文人名识别 example:NER: 邓颖超生前和刘晓辉同学合影, 李民工作了一天 result:邓颖超/nr 生前/t 和/c 刘晓辉/nr 同学/n 合影/v , 李民/nr 工作/vn 了/ul 一天/m 3. 外国人名识别 example:NER:本赛季德甲球队霍芬海姆的两名年轻球员菲尔米诺和福兰德表现出色,但球队主帅吉斯多尔态度强硬。 result:本赛季/n 德甲/n 球队/n 霍芬海姆/nrf 的/uj 两名/m 年轻/a 球员/n 菲尔米诺/nrf 和/c 福兰德/nr 表现出色/n ,/w 但/c 球队/n 主帅/n 吉斯多尔/nrf 态度强硬/n 。/w
很抱歉,jieba分词器是Python中的中文分词工具,Java中并没有直接使用jieba的方法。不过Java中也有很多优秀的中文分词工具,比如ansj、HanLP等。这里以ansj为例,介绍如何在Java中使用中文分词工具提取关键词。 首先,需要在Java项目中引入ansj分词器的jar包。然后,可以按照以下步骤使用ansj分词器提取关键词: 1. 导入ansj分词器的相关类: ```java import org.ansj.domain.Result; import org.ansj.splitWord.analysis.ToAnalysis; import org.ansj.util.FilterModifWord; ``` 2. 调用ToAnalysis.parse()方法对文本进行分词: ```java String text = "这是一段待分词的文本"; Result result = ToAnalysis.parse(text); ``` 3. 调用FilterModifWord.insertStopWords()方法添加停用词(可选): ```java FilterModifWord.insertStopWords(Arrays.asList("的", "是", "一", "段")); ``` 4. 调用FilterModifWord.modifResult()方法过滤分词结果: ```java result = FilterModifWord.modifResult(result); ``` 5. 遍历分词结果,提取关键词: ```java List<String> keywords = new ArrayList<>();for (int i = 0; i < result.size(); i++) { String word = result.get(i).getName(); String natureStr = result.get(i).getNatureStr(); if (!natureStr.startsWith("w")) { // 过滤掉标点符号 keywords.add(word); } } ``` 以上就是使用ansj分词器在Java中提取关键词的步骤。需要注意的是,ansj分词器默认使用的是基于词典的分词方式,对于一些新词或专有名词可能无法很好地识别,需要手动添加词典或调整分词规则。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值