自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

平凡|执着

自由互联网的黑夜精灵

  • 博客(11)
  • 收藏
  • 关注

原创 friso-1.6.1 发布 - C语言高性能中文分词器-检测模式切分

Friso是使用c语言开发的一款开源中文分词器,使用流行的mmseg算法实现。完全基于模块化设计和实现,可以很方便的植入其他程序中,例如:MySQL,PHP,源码无需修改就能在各种平台下编译使用,同时支持对UTF-8/GBK编码的切分.friso-1.6.1:1. friso.ini中friso.lex_dir增加相对friso.ini的路径支持,这个可以让嵌入部署更方便。感谢 @

2014-07-23 10:47:48 2865 1

原创 jcseg-1.9.4 发布 - Java轻量级开源中文分词器-检测模式切分

Jcseg[dʒɛ'ke'sɛ]是使用Java开发的一个开源中文分词器,使用流行的mmseg算法实现,并且提供了最高版本的lucene-4.x和最高版本solr-4.x的分词接口.1.9.3发布已经是三个月前的事情了,感叹下时间过的真快。Jcseg-1.9.4更新如下:1. 改善中英混合词的识别,可以识别更多情况, 例如: 高3。2. 加入IHashQueue来替换

2014-06-09 11:24:06 1043 1

原创 web系统性能方案全面总结

全面列举下web系统中前后台用到的各种性能提升方案: 尤其适合PHP系统只是列举了下, 后续慢慢来分开写吧, 很多东西我们已经用到了.一. 服务器端: 数据库层:1. 数据库性能优化:(设计方案,索引,查询缓存,反范式化设计)2. 使用NoSQL数据库(mongoDB, 这个开源的很多)  逻辑处理层:3. web压力测试(吞吐率,

2013-09-09 15:25:54 1311

原创 Jcseg-1.9.7 发布 - Restful API+文章自动摘要/关键字/短语/句子提取

Jcseg是基于mmseg算法的一个轻量级开源中文分词器,同时集成了关键字提取,关键短语提取,关键句子提取和文章自动摘要等功能,并且提供了最新版本的lucene, solr, elasticsearch的分词接口, Jcseg自带了一个 jcseg.properties文件用于快速配置而得到适合不同场合的分词应用,例如:最大匹配词长,是否开启中文人名识别,是否追加拼音,是否追加同义词等!

2015-12-09 14:55:19 1025

原创 Robbe-1.6.0 发布 - PHP开源中文分词扩展, GBK支持

Robbe是建立在Friso中文分词器上的一个高性能php中文分词扩展。同时支持对UTF-8/GBK编码的切分。Robbe-1.6.0:1.更改接口适用Friso-1.6.0。2.修改了UTF-8的测试程序,增加多个配置测试选项,同时增加了GBK测试程序。3.更改了rb_split,可以自定义的返回切分结果的词条,类别,长度,真实长度,偏移量,词性(待实现),具体可

2013-12-31 11:23:27 1516 1

原创 Friso-1.6.0 发布 - C语言高性能中文分词器,GBK支持

Friso是使用c语言开发的u一款开源中文分词器,使用流行的mmseg算法实现。完全基于模块化设计和实现,可以很方便的植入其他程序中,例如:MySQL,PHP,源码无需修改就能在各种平台下编译使用,并且提供了一个php的扩展: robbe. 同时支持对UTF-8/GBK编码的切分. Friso-1.6.0:1. friso_stirng.c#utf8_decimal_string初

2013-12-31 11:21:39 2149 1

原创 jcseg-1.9.2 发布 - Java开源轻量级中文分词器+里程碑版本

jcseg是使用java开发的一款轻量级的开源中文分词器, 并且提供了最新版本的lucene和solr分词接口.jcseg-1.9.2更新内容:1. 配置文件中词库多目录加载, 多个目录使用';'隔开.    例如:在jcseg.properties中设置lexicon.path=/java/jcseg/lex1;/java/jcseg/lex22. 修复中文分数识

2013-12-21 12:50:11 2040

原创 jcseg-1.9.0 发布 - 英文同义词追加+中英任意组合识别

jcseg是使用java开发的一款开源中文分词器, 并且提供了最新版本的lucene和solr分词接口.jcseg-1.9.0发布了, 具体更新如下:1. 修复"小数+单位"组合无法识别的情况.更改ASegment#isDigit()方法.2. 词库加载长度限制(长度大于max_length的过滤掉).3. 更改中英混合词的识别(目前可以识别中英任何一种组合).

2013-10-16 12:57:43 1772

原创 friso-1.4.0 发布 - 英文同义词追加+中英任意组合识别+小数单位识别

riso中文分词器friso是使用c语言开发的一个开源中文分词器,使用流行的mmseg算法实现。完全基于模块化设计和实现,可以很方便的植入其他程序中,例如:MySQL,PHP, 并且提供了一个php扩展: robbefriso-1.4.0发布:1. 修复"小数+单位"组合无法识别的情况.更改friso_string#utf8_numeric_string()函数.2. 更改

2013-10-16 12:56:00 2019

原创 friso-1.3发布-中英混合词识别+开发帮助文档+4处bug修复

friso是使用C语言开发的一款高性能分词组件, 并且提供了一个php分词扩展: robbe.friso-1.3发布了:这次的更新内容比较多, 具体如下:1. 除去和c++,vs的冲突(string和__value) 2. 部分简易函数使用了宏定义来代替, 减少函数的调用. 3. 保留了英文全半角和中文标点符号的切分.(可以通过过滤停止词来过滤不需要的标点)

2013-09-09 15:21:13 1909

原创 jcseg-1.8.9发布-词性标注+标点切分+IntArrayList优化+bug修复

jcseg是使用java开发的一款开源中文分词器, 并且提供了最新版本的lucene和solr分词接口.jcseg-1.8.9发布了:具体更新如下:1. 保留英文半全角标点和CJK标点符号切分(可通过停止词过滤掉,默认全部过滤掉了).2. 词性标注. jcseg很早就半支持词性标注了, 这次彻底的完善了下, 当然在你使用这个功能前, 你需要完善词库的词性标注, jc

2013-09-09 15:19:07 1538

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除