Lucene 问题 求助海量数据动态插入数据库 生成索引并检索

现在在做一个海量网页爬取的项目,主要业务是,爬取之后要查重评分,我们有两个库,一个静态库一个动态库,两个数据库都要查重,评分后在一定分值内的数据就保存到动态库,动态库的数据,每周一次更新到静态库,  静态库的查重已经完成,问题是动态库的数据如何查重?难道要每插入一条数据就添加一条索引?这样的逻辑对么?因为要爬去5千多个网页(甚至更多),担心不停地添加插入数据到动态库,并索引会浪费资源,求大神帮忙,海量数据如何动态索引  用的Lucene,项目马上要结束了,换其他搜索引擎的话估计没时间了,如何破。。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值