深入理解Hadoop之HDFS架构

最新推荐文章于 2023-04-10 08:25:43 发布

yalin7076

最新推荐文章于 2023-04-10 08:25:43 发布

阅读量351

点赞数

分类专栏：大数据 Java架构与大数据交流圈子文章标签：大数据 Hadoop HDFS 数据分析

本文链接：https://blog.csdn.net/yalin7076/article/details/85127752

版权

本文深入探讨了Hadoop的分布式文件系统HDFS的架构，包括NameNode和DataNodes的作用，文件系统名称空间，数据复制策略，以及NameNode如何管理元数据。HDFS设计考虑了硬件故障的高容错性，提供了高吞吐量的数据访问，适用于处理大量数据集。文件被分割为数据块并跨DataNodes存储，NameNode负责元数据管理和数据复制，确保数据的可靠性。

摘要由CSDN通过智能技术生成

Hadoop分布式文件系统（HDFS）是一种分布式文件系统。它与现有的分布式文件系统有许多相似之处。但是，与其他分布式文件系统的差异是值得我们注意的：

HDFS具有 高度容错 能力，旨在部署在 低成本 硬件上。(高容错)
HDFS提供对数据的 高吞吐量 访问，适用于具有 海量数据集 的应用程序。（高吞吐量）
HDFS放宽了一些POSIX要求，以实现对文件系统数据的 流式访问 。（流式访问）

HDFS最初是作为Apache Nutch网络搜索引擎项目的基础设施而构建的。HDFS是Apache Hadoop Core项目的一部分。项目URL是 http://hadoop.apache.org/

目标和假设

硬件故障检测： 硬件故障是常态而非例外。 Hadoop通常部署在低成本的硬件上，并且通常包含成百上千的服务器，每个服务器都存储文件系统数据的一部分。由于存在大量的组件，并且每个组件都具有不可忽略（non-trivial ）的故障概率，这意味着HDFS的某些组件始终都不起作用。因此， 故障检测 并 快速恢复 是HDFS的核心架构目标。

流式访问：HDFS更适合 批处理 而不是交互式使用，更加注重数据访问的 高吞吐量 而不是数据访问的低延迟。在HDFS上运行的应用程序需要对其数据集进行 流式访问 。

海量数据集：运行在HDFS上的应用程序具有大型数据集，HDFS中的一个典型文件的大小是g到tb，因此，HDFS被调优为支持大文件。它应该提供高聚合数据带宽，并可扩展到单个集群中的数百个节点。它应该在一个实例中支持数千万个文件。

一致性模型：HDFS应用程序需要一个一次写入多次读取的文件访问模型。文件一旦创建、写入和关闭，除了追加和截断操作外，无需要更改。支持将内容追加到文件末尾，但无法在任意点更新。该假设简化了数据一致性问题并实现了高吞吐量数据访问。MapReduce应用程序或Web爬虫应用程序完全适合此模型。

移动计算比移动数据便宜：应用程序请求的计算如果在其操作的数据附近执行，效率会高得多。当数据集的大小很大时尤其如此。这可以最大限度地减少网络拥塞并提高系统的整体吞吐量。 因此更好的做法是将计算迁移到更靠近数据所在的位置 ，而不是将数据移动到运行应用程序的位置。HDFS为应用程序提供了一些接口，使它们自己更接近数据所在的位置。

跨平台和可移植：Hadoop使用Java语言开发，使得Hadoop具有良好的跨平台性。

NameNode和DataNodes

HDFS具有 主/从 （ master/slave ）架构。HDFS集群由一个 NameNode 和许多 DataNode组成，NameNode是一个主服务器（master），管理文件系统名称空间并管理客端对数据的访问（ NameNode在Hadoop集群中充当管家的角色 ）。此外集群中每个节点通常是一个DataNode，DataNode管理它们的节点上存储的数据。

HDFS公开文件系统名称空间，并允许用户数据存储在文件中。在内部，文件被分成一个或多个块（block），这些块存储在DataNode中。NameNode执行文件系统名称空间的相关操作，如打开、关闭和重命名文件和目录。它还确定了块到DataNode的映射（块存储到哪个DataNode中）。数据节点负责服务来自文件系统客户端的读写请求。数据节点还根据NameNode的指令执行块创建、删除和复制。

集群中单一NameNode的结构大大简化了系统的架构。NameNo

最低0.47元/天解锁文章

yalin7076

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
2
评论
深入理解Hadoop之HDFS架构

Hadoop分布式文件系统（HDFS）是一种分布式文件系统。它与现有的分布式文件系统有许多相似之处。但是，与其他分布式文件系统的差异是值得我们注意的：HDFS具有高度容错能力，旨在部署在低成本硬件上。(高容错) HDFS提供对数据的高吞吐量访问，适用于具有海量数据集的应用程序。（高吞吐量） HDFS放宽了一些POSIX要求，以实现对文件系统数据的流式访问。（流式访问）...
复制链接

扫一扫

专栏目录