solr4.10.2及中文分词器的使用

转眼间lucene已发布到版本4了,想起07年使用lucene时,还是1点几的版本,那时公司买了本lucene in action中文版,我把它当宝一样,立马捧在手头,翻阅两遍。从那后,很少在用lucene,但时常也在关注,原理还是一致,只是增了很多特性与改进。

现在开发的产品需要使用搜索功能,lucene是首选,于是再度研究了一翻,没有多大难度。同时也不在直接使用lucene库,而是使用solr,大大简化了创建索引与查询索引的难度。solr这种分布式索引方式对性能的控制更加有把握,因为它支持多核、复制功能,我们还可以写代码实现读写分离等性能扩展功能。

目前最新的版本是solr-4.10.2,当下几个出名的分词器IKAnalyzer已支持该版本,但需要下载这个版本:IKAnalyzer2012FF_u1.jar。庖丁分词与mmseg4j分词都还不支持solr-4.10.2,于是我下载了它们的源码,分别做了修改,经整合测试可用。稍后我会将自己修改后的jar发到csdn资源上,供大家参考学习。

推荐使用mmseg4j

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值