简述Hadoop中读写数据流程、NameNode、Seconday以及DataNode工作机制

本文链接：https://blog.csdn.net/yongdaime/article/details/106227586

分布式文件系统HDFS（Distributed File System）是大数据生态组件Hadoop的一个重要组成部分。它是一个具有高度容错性的系统，适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。

HDFS写数据流程（图）

简述：

客户端通过Distributed FileSystem模块向NameNode请求上传文件，NameNode检查目标文件是否已存在，父目录是否存在；
NameNode返回是否可以上传；
客户端向NameNode请求上传文件的第一个 Block到服务器上；
NameNode返回DataNode节点信息；
在副本数为3的情况下，客户端通过FSDataOutputStream模块请求与dn1建立通信管道，dn1收到请求会继续调用dn2，然后dn2调用dn3，将这个通信管道建立完成；
dn1、dn2、dn3逐级应答客户端；
客户端开始往dn1上传第一个Block（先从磁盘读取数据放到一个本地内存缓存），以Packet为单位，dn1收到一个Packet就会传给dn2，dn2传给dn3；dn1每传一个packet会放入一个应答队列等待应答；
当一个Block传输完成之后，客户端再次请求NameNode上传第二个Block的服务器。（重复执行3-7步）。

简述：

简述：
NN阶段：

2NN阶段：
4. Secondary NameNode询问NameNode是否需要CheckPoint。直接带回NameNode是否检查结果。

简述：

一个数据块在DataNode上以文件形式存储在磁盘上，包括两个文件，一个是数据本身，一个是元数据包括数据块的长度，块数据的校验和，以及时间戳。
DataNode启动后向NameNode注册自己，通过后，周期性（1小时）的向NameNode上报所有的块信息。
心跳是每3秒一次，心跳返回结果带有NameNode给该DataNode的命令，如复制块数据到另一台机器，或删除某个数据块。如果超过10分钟没有收到某个DataNode的心跳，则认为该节点不可用。
集群运行中可以安全加入和退出一些机器。

颜色搭配对我来讲真是要了亲命了，感觉怎么搭配都好丑啊。。。