lucene的企业级搜索引擎

lucene的企业级搜索引擎
企业级:持久化数据
大量数据,很多人同时访问数据,大量用户操作界面,
通常需要与散步在企业周围的其他应用进行集成。

企业级分为两类:
面向企业用户HRM ERM
面向消费者

什么是lucene:
是一个高效的,基于java全文搜索库。
数据类型分为两大类:
1 结构化数据 固定格式的数据,sql 元数据
2 非结构化数据 grep ps aux|grep xxx
3 半结构化 html xml

[img]http://dl2.iteye.com/upload/attachment/0122/1822/961057c1-4577-3386-a869-0e4df544fddc.png[/img]

顺序扫描法
非结构化数据中提取的然后重新组织的信息 索引
软件包分析
org.apache.lucene.analysis 分词器
org.apache.lucene.doument 封装索引所需要的类 Doument ,field
org.apache.lucene.index 协助创建索引的类,以及对象索引进行更新
org.apache.lucene.search 对建立好的索引搜索所需要的类

Document,field,indexWriter directory FSD RAM

如果现从数据库查询出索引文档,再取得数据,和数据库一样了。
如果数据发生变化了,如何更新文档呢,
1.判断文档存在
merge 归并算法,个别文件和原来有区分文件合并操作。
可以使用定时任务去更新。


solr lucene
1.兼容性好
2.实现了分块索引建立小文件,提升索引速度
3.易于学习
4.易于扩展
4.自带比较强力的模糊查询

缺点:
1.对磁盘占用太大,频繁操作磁盘 1024T
2.不支持API
3.不支持集群 继承Directory solr Nutch+Hadoop indexServer nutch集成

总结:
java 开源搜索引擎里面 lucene

项目中:
solr-solrj-4.10.4-sources.jar,
保存只有在定时任务里使用,保存的时候取DB数据,再保存到solr
solrServer.addBean(Object);
solrServer.commit();
solrServer.deleteById(id);
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值