Hadop 生态系统
Hadoop是一个能够对大量数据进行分布式处理的软件框架,具有可靠、高效、可伸缩的特点。。Hadoop 2.0版本引入了HA (High Alability高可用性)和Yam (资源调度),这是与Hadoop 1.0的最大区别。Hadoop 1.0生态系统如图2-1所示。
Hadoop 2.0主要由三部分组成: HDFS 分布式文件系统、MapReduce编程模型和Yarm 源管理。Hadoop 2.0生态系统如图2-2所示。
由图2-1和图2-2可以看出,整个Hadop家族由以下几个子项目组成:
(1) HDFS
对于分布式计算,每个服务器必须具备对数据的访问能力,这就是HDFS (Hadop Distributed File System)所起到的作用。在处理大数据的过程中,当Hadop集群中的服务器出现错误时,整个计