lucene索引文件存储在hadoop hdfs文件系统的疑问

最新推荐文章于 2018-09-27 21:29:24 发布

wslovenide

最新推荐文章于 2018-09-27 21:29:24 发布

阅读量1.1k

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wslovenide/article/details/42639913

版权

由于公司业务的需要，需要对大量(上亿)的数据进行分词并生成索引文件，目前用了4台solr集群来提供查询服务，听说性能还很不错，但是考虑到数据量还会不断增加，每天都会有40G的数据需要加入索引，索引文件的不断扩增最终还是会成为系统的瓶颈，现在考虑使用hadoop的dhfs文件系统来存储索引文件，但是在网上查了不少资料，有不少网友说hadoop的hdfs文件系统不支持随机写(lucene的索引是随机读写的),解决方案是先把索引写在本地或内存，再把本地或内存中的索引写在hdfs系统中, 查询索引的时候也是先从hdfs读取索引先写入内存,在从内存中进行查询...

疑问：数据量太大40G，写入到内存肯定不现实, 先写入本地再同步到hdfs,那查询的时候先从hdfs把索引写到本地磁盘，这个效率肯定也是不高的，跪求大神对这样的需求有什么好的解决方案.

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。