转眼间lucene已发布到版本4了,想起07年使用lucene时,还是1点几的版本,那时公司买了本lucene in action中文版,我把它当宝一样,立马捧在手头,翻阅两遍。从那后,很少在用lucene,但时常也在关注,原理还是一致,只是增了很多特性与改进。
现在开发的产品需要使用搜索功能,lucene是首选,于是再度研究了一翻,没有多大难度。同时也不在直接使用lucene库,而是使用solr,大大简化了创建索引与查询索引的难度。solr这种分布式索引方式对性能的控制更加有把握,因为它支持多核、复制功能,我们还可以写代码实现读写分离等性能扩展功能。
目前最新的版本是solr-4.10.2,当下几个出名的分词器IKAnalyzer已支持该版本,但需要下载这个版本:IKAnalyzer2012FF_u1.jar。庖丁分词与mmseg4j分词都还不支持solr-4.10.2,于是我下载了它们的源码,分别做了修改,经整合测试可用。稍后我会将自己修改后的jar发到csdn资源上,供大家参考学习。
推荐使用mmseg4j