大数据技术原理与应用作业八
1. 试述在Hadoop推出之后其优化与发展主要体现在哪两个方面。
Hadoop的优化与发展主要体现在两个方面:一方面是Hadoop资深两大核心组件MapReduce和HDFS的架构设计改进,另一方面是Hadoop生态系统其他组件的不断丰富。通过这些优化和提升,Hadoop可以支持更多的应用场景,提供更高的集群可用性,同时也带来了更高的资源利用率。
2. 试述HDFS1.0中只包含一个名称节点会带来哪些问题。
只包含一个名称节点会存在单点失效的问题。HDFS1.0 采用单点名称节点的设计,不仅会带来单点故障问题,还存在可扩展性、性能和隔离性等问题。
可扩展性:NameNode把整个HDFS文件系统中的元数据信息都保存在自己的内存中,HDFS1.0中只有一个名称节点,不可以水平扩展,而单个名称节点的内存空间是有上限的,这限制了系统中数据块、文件和目录的数目。
性能:整个HDFS文件系统的性能会受限于单个名称节点的吞吐量。
隔离性:单个名称节点难以提供不同程序之间的隔离性,一个程序可能会影响到其他运行的程序。
3. 请描述HDFS HA架构组成组件及其具体功能。
在一个典型的HA集群中,一般设置两个名称节点,其中一个名称节点处于“活跃(Active)”状态,另一个处于“待命(Standby)”状态,如下图所示。处于活跃状态的名称节点负责对外处理所有客户端的请求,而处于待命状态的名称节点则最为备用节点,保存了足够多的系统元数据,当名称节点出现故障时提供快速恢复能力。也就是说,在HDFS HA中,处于待命状态的名称节点提供了“热备份”,一旦活跃节点出现故障,就可以立即切换到待命节点,不会影响到系统的正常对外服务。
4. 请分析HDFS HA架构中数据节点如何和名称节点保持通信。
在HDFS联邦中,所有名称节点会共享底层的数据节点存储资源。每个数据节点要向集群中所有的名称节点注册,并周期性地向名称节点发送