HDFS 组织架构

优质博文:IT-BLOG-CN

一、HDFS 概述

HDFS 产生背景: 随着数据量越来越多,一个系统存储不下所有的数据,那么就需要分配到多个操作系统的磁盘中进行存储,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS 只是分布式文件管理系统的一种。

HDFS 定义: HDFS(Hadoop Distributed File System)分布式文件系统,用于存储文件,通过目录树来定位文件,其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。

HDFS 的使用场景: 适合一次写入,多次读出的场景,且不支持文件的修改。适合用来做数据分析,并不适合用来做网盘应用。

二、HDFS 优缺点

优点:
【1】容错性: 数据自动保存多个副本。通过增加副本的形式,提高容错性。如下三个副本中其中一个副本挂掉了:
在这里插入图片描述

某一个副本丢失以后,它可以自动恢复
在这里插入图片描述

【2】适合处理大数据:数据规模:能够处理数据规模达到 GB、TB、甚至 PB级别的数据。文件规模:能够处理百万规模以上的文件数量,数量相当之大。
【3】可以构建在廉价机器上,通过多副本机制,提高可靠性。

缺点:
【1】不适合低延时数据访问:比如毫秒级的存储数据,是做不到的。
【2】无法高效对大量小文件进行存储:存储大量小文件的话,它会占用 NameNode 大量的内存来存储文件目录和块信息。这样是不可取的,因为 NameNode的内存总是有限的。同时,小文件存储的寻址时间会超过读取时间,它违反了HDFS的设计目标。
【3】不支持并发写入、文件随机修改:一个文件只能有一个写,不允许多个线程同时写。仅支持数据 append(追加),不支持文件的随机修改。

三、HDFS 组成架构

HDFS(Hadoop Distributed File System)的架构概述,易懂版,如图所示。
在这里插入图片描述

HDFS 组成架构(官网)
点击并拖拽以移动​

【1】NameNode(nn): 就是Master,作为管理者:
(1)管理 HDFS 的名称空间;
(2)配置副本策略;
(3)管理数据块(Block)的映射信息;
(4)处理客户端读写请求;

【2】DataNode: 就是 Slave。NameNode 下达命令,DataNode 执行实际操作。
(1)存储实际的数据块;
(2)执行数据块的读/写操作;

【3】Secondary NameNode: 非 NameNode 的热备。当 NameNode 挂掉时,它并不能马上替换 NameNode 并提供服务。
(1)辅助 NameNode,分担其工作量,比如定期合并 Fsimage 和 Edits,并推送给 NameNode;
(2)在紧急情况下,可辅助恢复 NameNode;

【4】Client: 客户端
(1)文件切分。文件上传 HDFS 的时候,Client 将文件切分成一个一个的 Block,然后进行上传;
(2)与 NameNode 交互,获取文件的位置信息;
(3)与 DataNode 交互,读取或者写入数据;
(4)Client 提供一些命令来管理 HDFS,比如 NameNode 格式化;
(5)Client 可以通过一些命令来访问 HDFS,比如对 HDFS 的增删改查操作;

【5】副本的复制策略: 首先 HDFS副本复制策略基于的前提是机架感知,对此首先需要了解网络的带宽是如何计算:
(1)相同机架的不同节点之间的网络传输速度都是2;
(2)不同机架的不同节点之间的网络传输速度是4;

【策略如下】:
第一个副本:如果客户端在当前 DataNode节点上发送请求,第一个副本就保存在客户端所在的节点上(遵循就近原则) 如果客户端不在集群的任意节点上,则随机选择一个节点保存副本;
第二个副本:和第一个副本不同的机架上的随机节点上 (为了保证数据的安全) ;
第三个副本:和第二个副本在同机架的不同节点上(为了副本的复制速度) ;

四、HDFS 文件块大小

HDFS 中的文件在物理上是分块存储(Block),块的大小可以通过配置参数(dfs.blocksize)来规定,默认在 Hadoop2.x版本中是 128M,老版本是 64M。
在这里插入图片描述

HDFS 块大小设置: 为什么块的大小不能设置太小,也不能设置太大
【1】HDFS 块设置太小,会增加寻址时间,程序一直在找块的位置;
【2】如果块设置的太大,从磁盘传输数据的时间会明显大于块定位的时间。导致程序在处理块数据时,会非常慢。

总结: HDFS 块的大小设置取决于磁盘传输速率

  • 99
    点赞
  • 85
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 64
    评论
抱歉,我无法提供图片或设计图。但是,我可以向您描述大数据技术架构的一般设计原则和组成部分。 大数据技术架构设计通常包括以下几个关键组件: 1. 数据来源:这包括各种数据源,例如传感器、日志文件、数据库等。您需要确定数据的来源以及如何收集和存储这些数据。 2. 数据采集和传输:在数据源之后,您需要考虑如何采集和传输数据到目标系统。这可能涉及到使用ETL工具(Extract, Transform, Load)或实时流处理平台来处理实时数据。 3. 数据存储:大数据架构通常使用分布式存储系统来存储海量数据。常见的选择包括Hadoop分布式文件系统(HDFS)、NoSQL数据库(如Cassandra、MongoDB)和列式数据库(如Apache Kudu)。 4. 数据处理和分析:一旦数据存储起来,您需要考虑如何处理和分析这些数据。这可能涉及到使用批处理框架(如Apache Spark)或流处理框架(如Apache Flink)来进行数据处理和实时分析。 5. 数据可视化和报告:将处理和分析的结果可视化是大数据架构中的重要一环。您可以使用商业智能工具(如Tableau、PowerBI)或自定义开发的仪表盘来展示数据可视化和生成报告。 6. 数据安全和隐私:在设计大数据架构时,数据的安全性和隐私保护是非常重要的考虑因素。您需要采取适当的安全措施,例如数据加密、访问控制和审计跟踪,以确保数据的保密性和完整性。 以上是一个基本的大数据技术架构设计概述,实际的设计可能会因组织的需求和数据特点而有所不同。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 64
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

程序猿进阶

千言万语都不及一句“谢谢”

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值