1.1数据!数据!
我们已经进入了一个数据大爆炸的时代!(有大量数据需要存储和处理)
1.2数据的存储与分析
硬盘存储容量多年来不断提升的同时,访问速度却没有与时俱进。
可采用分布式存储。但是存在两个问题,1.硬件故障问题。解决办法:a.冗余硬盘阵列(RAID);b.Hadoop的文件系统HDFS。
2.多数任务需要某种方式结合大部分数据来共同分析。
1.3相较于其他系统的优势
1.3.1关系型数据库
关系型数据库的弊端是,需要寻址,而寻址时间的提升不敌于传输速率的提升,模型是B树。
可以将MapReduce视为关系型数据库的补充。
Map Reduce适合以批处理需要分析的整个数据集的问题,尤其是动态分析,适合一次写入多次读取数据,关系型数据库适合持续更新的数据。
关系型数据库 | MapReducec | |
---|---|---|
数据大小 | GB | PB |
数据存取 | 交互式和批处理 | 批处理 |
更新 | 多次读/写 | 一次写入多次读取 |
横向扩展 | 非线性的 | 线性的 |
结构 | 静态模式 | 动态模式 |
完整性 | 高 | 低 |
1.3.2网格计算
高性能计算和网格计算采用的方法是将作业分散到集群的各台机器上,这些机器访问存储网络所组成的共享文件系统。比较适合于计算密集型,但是如果所需数据很大,计算节点就需要停止等待。
MapReduce尽量在计算节点上存储数据,数据本地化是其核心特征。
1.3.3志愿计算
MapReduce三大目标:1.为只需要短短几分钟或几个小时就可以完成的左右提供服务;2.运行于一个内部有告诉网络连接的数据中心内;3.数据中心内的计算机都是可靠的,定制的硬件。