大数据技术原理与应用作业八

最新推荐文章于 2022-11-09 15:57:31 发布

Play With SanLei

最新推荐文章于 2022-11-09 15:57:31 发布

阅读量2.9k

点赞数 2

分类专栏：大数据文章标签： hadoop big data spark

本文链接：https://blog.csdn.net/weixin_43644559/article/details/120311034

版权

本文介绍了Hadoop在HDFS和MapReduce方面的优化，特别是HDFS HA架构，解决了单点故障问题，提升了可用性和扩展性。此外，详细探讨了YARN在资源管理和调度上的改进，对比了MapReduce1.0的优缺点，阐述了YARN如何提高资源利用率和兼容多种计算框架。最后，提到了Pig、Tez和Kafka在大数据处理中的作用。

摘要由CSDN通过智能技术生成

大数据技术原理与应用作业八

1. 试述在Hadoop推出之后其优化与发展主要体现在哪两个方面。

Hadoop的优化与发展主要体现在两个方面：一方面是Hadoop资深两大核心组件MapReduce和HDFS的架构设计改进，另一方面是Hadoop生态系统其他组件的不断丰富。通过这些优化和提升，Hadoop可以支持更多的应用场景，提供更高的集群可用性，同时也带来了更高的资源利用率。

2. 试述HDFS1.0中只包含一个名称节点会带来哪些问题。

只包含一个名称节点会存在单点失效的问题。HDFS1.0 采用单点名称节点的设计，不仅会带来单点故障问题，还存在可扩展性、性能和隔离性等问题。

可扩展性：NameNode把整个HDFS文件系统中的元数据信息都保存在自己的内存中，HDFS1.0中只有一个名称节点，不可以水平扩展，而单个名称节点的内存空间是有上限的，这限制了系统中数据块、文件和目录的数目。

性能：整个HDFS文件系统的性能会受限于单个名称节点的吞吐量。

隔离性：单个名称节点难以提供不同程序之间的隔离性，一个程序可能会影响到其他运行的程序。

3. 请描述HDFS HA架构组成组件及其具体功能。

在一个典型的HA集群中，一般设置两个名称节点，其中一个名称节点处于“活跃（Active）”状态，另一个处于“待命（Standby）”状态，如下图所示。处于活跃状态的名称节点负责对外处理所有客户端的请求，而处于待命状态的名称节点则最为备用节点，保存了足够多的系统元数据，当名称节点出现故障时提供快速恢复能力。也就是说，在HDFS HA中，处于待命状态的名称节点提供了“热备份”，一旦活跃节点出现故障，就可以立即切换到待命节点，不会影响到系统的正常对外服务。