大数据学习笔记--HDFS

最新推荐文章于 2024-08-21 21:52:49 发布

不爱写代码的杨晓

最新推荐文章于 2024-08-21 21:52:49 发布

阅读量243

点赞数 1

文章标签： hadoop 大数据分布式

本文链接：https://blog.csdn.net/weixin_44123410/article/details/109827451

版权

本文是大数据学习者对HDFS的笔记，介绍了HDFS的基本概念、系统组成及读写流程。HDFS作为Hadoop框架的分布式存储部分，提供大规模数据存储与处理的能力。在读流程中，NameNode指引客户端从DataNode获取文件；而在写流程中，客户端通过建立的管道将Block逐级上传至DataNode。

摘要由CSDN通过智能技术生成

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档

前言

一名大数据学习小白，在这里记录自己的学习过程，今天分享的是Hadoop框架HDFS

一、HDFS是什么？

HDFS作为hadoop框架的一部分，承担分布式存储服务的角色，为存储和处理超⼤规模数据
提供所需的扩展能⼒。

二、HDFS的认识

1.重要概念

HDFS重要概念

在这里插入图片描述

2.组成

HDFS的组成如下：

在这里插入图片描述

2.读写流程分析

在这里插入图片描述
读流程分析

客户端通过Distributed FileSystem向NameNode请求下载⽂件，NameNode通过查询元数据，找到⽂件块所在的DataNode地址。
挑选⼀台DataNode（就近原则，然后随机）服务器，请求读取数据。
DataNode开始传输数据给客户端（从磁盘⾥⾯读取数据输⼊流，以Packet为单位来做校验）。
客户端以Packet为单位接收，先在本地缓存，然后写⼊⽬标⽂件。

写流程分析

客户端通过Distributed FileSystem模块向NameNode请求上传⽂件，NameNode检查⽬标⽂件是否已存在，⽗⽬录是否存在
NameNode返回是否可以上传。
客户端请求第⼀个 Block上传到哪⼏个DataNode服务器上。
NameNode返回3个DataNode节点，分别为dn1、dn2、dn3。
客户端通过FSDataOutputStream模块请求dn1上传数据，dn1收到请求会继续调⽤dn2，然后dn2调⽤dn3，将这个通信管道建⽴完成。
dn1、dn2、dn3逐级应答客户端。
客户端开始往dn1上传第⼀个Block（先从磁盘读取数据放到⼀个本地内存缓存），以Packet为单位，dn1收到⼀个Packet就会传给dn2，dn2传给dn3；dn1每传⼀个packet会放⼊⼀个确认队列等待确认。
当⼀个Block传输完成之后，客户端再次请求NameNode上传第⼆个Block的服务器。（重复执⾏3-7步）。

总结

以上就是今天的学习笔记，本文主要记录了HDFS的概念和流程，不喜勿喷。文章内容输出来源：拉勾教育大数据开发高薪训练营；

不爱写代码的杨晓

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
大数据学习笔记--HDFS

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、HDFS是什么？二、HDFS的认识1.重要概念2.组成2.读写流程分析总结前言一名大数据学习小白，在这里记录自己的学习过程，今天分享的是Hadoop框架HDFS一、HDFS是什么？HDFS作为hadoop框架的一部分，承担分布式存储服务的角色，为存储和处理超⼤规模数据提供所需的扩展能⼒。二、HDFS的认识1.重要概念HDFS重要概念2.组成HDFS的组成如下：2.读写流程分析读流程分析
复制链接

扫一扫