为了方便大家理解,先看一下传统数据与大数据处理服务器系统安装对比:
看图片对比可以看出系统硬盘首先是相同的,主要区别是指在数据硬盘上面。
首先传统数据下数据硬盘是做一个逻辑卷将6块4T的硬盘做成一个24T的大硬盘挂载到/data/disk1上面,他的工作原理是用完一块再用下一块,比如我有一个20T的大文件需要存储,他会先用第一块4T的硬盘存4T存完后再用下一块硬盘存接下来的内容,这个硬盘存满后就换下一个直到将整个文件存储完毕。
大数据下数据硬盘每个都是独立挂载的,所以每个硬盘都是可以独立运行的,同样的存20T的文件时就会有6个硬盘同时运行进行存储,所以速度就是传统的6倍。
如果还是不能理解,再给大家举一个例子,为什么高铁比火车速度快那么多?
高铁比火车速度快是有很多原因的,包括外形、技术、质量等等。但最主要的原因还是因为提供动力的方式不同,火车是由火车头来拉着后面的车厢走动力来源只有火车头,高铁的动力来自多个车厢同时提供的动力来进行运行。
总结一下:
大数据之所以比传统数据更快的原因就是采用了分布式的运行方式