![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Java
文章平均质量分 67
狮子的魂
微头条CTO,多个知名开源软件的作者。
展开
-
jcseg-1.8.9发布-词性标注+标点切分+IntArrayList优化+bug修复
jcseg是使用java开发的一款开源中文分词器, 并且提供了最新版本的lucene和solr分词接口. jcseg-1.8.9发布了: 具体更新如下: 1. 保留英文半全角标点和CJK标点符号切分(可通过停止词过滤掉,默认全部过滤掉了). 2. 词性标注. jcseg很早就半支持词性标注了, 这次彻底的完善了下, 当然在你使用这个功能前, 你需要完善词库的词性标注, jc原创 2013-09-09 15:19:07 · 1544 阅读 · 0 评论 -
jcseg-1.9.0 发布 - 英文同义词追加+中英任意组合识别
jcseg是使用java开发的一款开源中文分词器, 并且提供了最新版本的lucene和solr分词接口. jcseg-1.9.0发布了, 具体更新如下: 1. 修复"小数+单位"组合无法识别的情况.更改ASegment#isDigit()方法. 2. 词库加载长度限制(长度大于max_length的过滤掉). 3. 更改中英混合词的识别(目前可以识别中英任何一种组合).原创 2013-10-16 12:57:43 · 1778 阅读 · 0 评论 -
jcseg-1.9.2 发布 - Java开源轻量级中文分词器+里程碑版本
jcseg是使用java开发的一款轻量级的开源中文分词器, 并且提供了最新版本的lucene和solr分词接口. jcseg-1.9.2更新内容: 1. 配置文件中词库多目录加载, 多个目录使用';'隔开. 例如:在jcseg.properties中设置lexicon.path=/java/jcseg/lex1;/java/jcseg/lex2 2. 修复中文分数识原创 2013-12-21 12:50:11 · 2056 阅读 · 0 评论 -
jcseg-1.9.4 发布 - Java轻量级开源中文分词器-检测模式切分
Jcseg[dʒɛ'ke'sɛ]是使用Java开发的一个开源中文分词器,使用流行的mmseg算法实现,并且提供了最高版本的lucene-4.x和最高版本solr-4.x的分词接口. 1.9.3发布已经是三个月前的事情了,感叹下时间过的真快。 Jcseg-1.9.4更新如下: 1. 改善中英混合词的识别,可以识别更多情况, 例如: 高3。 2. 加入IHashQueue来替换原创 2014-06-09 11:24:06 · 1056 阅读 · 1 评论 -
Jcseg-1.9.7 发布 - Restful API+文章自动摘要/关键字/短语/句子提取
Jcseg是基于mmseg算法的一个轻量级开源中文分词器,同时集成了关键字提取,关键短语提取,关键句子提取和文章自动摘要等功能,并且提供了最新版本的lucene, solr, elasticsearch的分词接口, Jcseg自带了一个 jcseg.properties文件用于快速配置而得到适合不同场合的分词应用,例如:最大匹配词长,是否开启中文人名识别,是否追加拼音,是否追加同义词等!原创 2015-12-09 14:55:19 · 1034 阅读 · 0 评论