由于公司业务的需要,需要对大量(上亿)的数据进行分词并生成索引文件,目前用了4台solr集群来提供查询服务,听说性能还很不错,但是考虑到数据量还会不断增加,每天都会有40G的数据需要加入索引,索引文件的不断扩增最终还是会成为系统的瓶颈,现在考虑使用hadoop的dhfs文件系统来存储索引文件,但是在网上查了不少资料,有不少网友说hadoop的hdfs文件系统不支持随机写(lucene的索引是随机读写的),解决方案是先把索引写在本地或内存,再把本地或内存中的索引写在hdfs系统中, 查询索引的时候也是先从hdfs读取索引先写入内存,在从内存中进行查询...
疑问:数据量太大40G,写入到内存肯定不现实, 先写入本地再同步到hdfs,那查询的时候先从hdfs把索引写到本地磁盘,这个效率肯定也是不高的,跪求大神对这样的需求有什么好的解决方案.