lucene索引文件存储在hadoop hdfs文件系统的疑问

由于公司业务的需要,需要对大量(上亿)的数据进行分词并生成索引文件,目前用了4台solr集群来提供查询服务,听说性能还很不错,但是考虑到数据量还会不断增加,每天都会有40G的数据需要加入索引,索引文件的不断扩增最终还是会成为系统的瓶颈,现在考虑使用hadoop的dhfs文件系统来存储索引文件,但是在网上查了不少资料,有不少网友说hadoop的hdfs文件系统不支持随机写(lucene的索引是随机读写的),解决方案是先把索引写在本地或内存,再把本地或内存中的索引写在hdfs系统中, 查询索引的时候也是先从hdfs读取索引先写入内存,在从内存中进行查询...

疑问:数据量太大40G,写入到内存肯定不现实, 先写入本地再同步到hdfs,那查询的时候先从hdfs把索引写到本地磁盘,这个效率肯定也是不高的,跪求大神对这样的需求有什么好的解决方案.


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值