大数据技术与原理第三章(上)

学以致用1112

已于 2022-10-07 19:22:32 修改

阅读量424

点赞数

分类专栏：笔记文章标签：大数据 hadoop 运维

于 2022-10-07 19:22:07 首次发布

本文链接：https://blog.csdn.net/weixin_50636794/article/details/127196726

版权

9 篇文章 0 订阅

订阅专栏

分布式文件系统HDFS

在这里插入图片描述

分布式文件系统在物理结构上是由计算机集群中的多个节点构成的，这些节点分为两类：

负责文件和目录的创建、删除和重命名等，同时管理者数据节点和文件块的映射关系；
客户端只有访问名称节点才能找到请求的文件块所在的位置，从而到相应位置读取文件块。

负责数据的存储和读取，在存储时，由名称节点分配存储位置，然后由客户端把数据直接写入相应数据节点；
在读取时，客户端从名称节点获得数据节点和文件块的映射，然后就可以到相应位置访问文件块；
数据节点也要根据名称节点的命令创建、删除数据块和冗余复制。

块：相对于普通文件系统的块要大，是为了最小化寻址开销。但也不能太大，因为通常MapReduce中的Map任务一次只能处理一个块中的数据，如果启动的任务太少，就会降低作业并行处理速度。

名称节点
名称节点负责管理分布式文件系统的命名空间，保存了两个核心的数据结构，包括FsImage和Editlog。
FsImage用于维护文件系统树以及文件树中所有的文件和文件夹的元数据；
操作日志文件Editlog中记录了所有针对文件的创建、删除、重命名等操作。
数据节点
数据节点是分布式文件系统HDFS的工作节点，负责数据的存储和读取，会根据客户端或者名称节点的调度来进行数据的存储和检索，并且向名称节点定期发送自己所存储的块的列表。每个数据节点中的数据会被保存在各自节点的本地Linux文件系统中。
第二名称节点
是HDFS架构的重要组成部分