本节目标:
1.了解Hadoop1.0的局限与不足
2.掌握HDFS 2.0 的新特性
1 Hadoop的局限与不足
Hadoop1.0的核心组件MR和HDFS主要有几个不足:
(1) 抽象层次低。对于简单的功能,编写大量的代码。
(2) 表达能力有限。MR把复杂分布式编程工作高度抽象到两个函数上,即Map和Reduce上,实际生产环境中有些不能只用简单的两个函数完成。
(3) 要管理作业间复杂的依赖关系。实际应用通常需要大量的job协作完成,job之间往往存在复杂的依赖关系。
(4) 迭代效率低。对于需要迭代的任务,需要反复读写HDFS文件中的数据,大大降低了迭代效率。
(5) 资源浪费。Reduce任务需要等待所有Map任务完成后才开始。
(6) 实时性差。适用于离线批处理。
2 从1.0到2.0的改进
3 HDFS2.0新特性
主要是HDFS HA和HDFS联邦两个新特性。
3.1 HDFS HA
对于分布式文件系统HDFS ,NN是系统的核心节点,存储了各类元数据信息,并负责管理文件系统的命名空间和客户端对文件的访问。但是,在HDFS1.0中,只存在一个NN,一旦发生“单点故障”