大数据技术与原理第三章(上)

分布式文件系统HDFS

在这里插入图片描述

  • 与普通文件系统类似,分布式文件系统也采取了块的概念,文件被分成若干个块进行存储,块是数据读写的基本单位.
  • HDFS默认的一个块的大小是64MB.
  • 与普通文件不同的是,在分布式文件系统中,如果一个文件小于一个数据块的大小,它并不占用整个数据块的存储空间.

物理结构

分布式文件系统在物理结构上是由计算机集群中的多个节点构成的,这些节点分为两类:

  1. 主节点(Master Node),也叫名称节点(Name Node).
  2. 从节点(Slave Node),也叫数据节点(Data Node).
名称节点:

负责文件和目录的创建、删除和重命名等,同时管理者数据节点和文件块的映射关系;
客户端只有访问名称节点才能找到请求的文件块所在的位置,从而到相应位置读取文件块。

数据节点:

负责数据的存储和读取,在存储时,由名称节点分配存储位置,然后由客户端把数据直接写入相应数据节点;
在读取时,客户端从名称节点获得数据节点和文件块的映射,然后就可以到相应位置访问文件块;
数据节点也要根据名称节点的命令创建、删除数据块和冗余复制。

HDFS要实现的目标:

  1. 兼容廉价的硬件设备
  2. 流数据读写
  3. 大数据集
  4. 简单的文件模型
  5. 强大的跨平台兼容性
  6. 不适合低延迟数据访问
  7. 无法高效存储大量小文件
  8. 不支持多用户写入及任意修改文件

HDFS相关概念

  • :相对于普通文件系统的块要大,是为了最小化寻址开销。 但也不能太大,因为通常MapReduce中的Map任务一次只能处理一个块中的数据,如果启动的任务太少,就会降低作业并行处理速度。
采用抽象的块的好处:
  • 支持大规模文件存储
  • 简化系统设计
  • 适合数据备份

  • 名称节点
    名称节点负责管理分布式文件系统的命名空间,保存了两个核心的数据结构,包括FsImage和Editlog。
    FsImage用于维护文件系统树以及文件树中所有的文件和文件夹的元数据;
    操作日志文件Editlog中记录了所有针对文件的创建、删除、重命名等操作。
    在这里插入图片描述

  • 数据节点
    数据节点是分布式文件系统HDFS的工作节点,负责数据的存储和读取,会根据客户端或者名称节点的调度来进行数据的存储和检索,并且向名称节点定期发送自己所存储的块的列表。每个数据节点中的数据会被保存在各自节点的本地Linux文件系统中。

  • 第二名称节点
    在这里插入图片描述

  • 是HDFS架构的重要组成部分

  1. 可以完成EditLog与FsImage的合并操作,减小EditLog文件大小,缩短名称节点重启时间;
  2. 可以作为名称节点的”检查点“,保存名称节点中的元数据信息。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值