DataNode的工作机制

最新推荐文章于 2023-03-05 21:43:40 发布

姜晓弘

最新推荐文章于 2023-03-05 21:43:40 发布

阅读量270

点赞数

文章标签： hadoop

本文链接：https://blog.csdn.net/weixin_43865522/article/details/86572707

版权

在这里插入图片描述
1）、一个数据块在datanode上以文件形式存储在磁盘上，包括两个文件，一个是数据本身，一个是元数据包括数据块的长度，块数据的校验以及时间戳
2）、DataNode启动后向namenode注册，通过后，周期性(1小时)的向namenode上报所有的块信息
3）、心跳是每3秒一次，心跳返回结果带有namenode给该datanode的命令如复制块数据到另外一台机器，或删除某个数据块。如果超过10分钟没有收到某个datanode的心跳，则认为该节点不可用
4）、集群运行中可以安全加入和退出一些机器

数据完整性
1）、当DataNode读取block的时候，它会计算checksum
2）、如果计算后的checksum，与block创建时值不一样，说明block已经损坏
3）、client读取其他DataNode上的block
4）、datanode在其文件创建后周期验证checksum

掉线时限参数设置
datanode进程死亡或者网络故障造成datanode无法与namenode通信，namenode不会立即把该节点判定为死亡，要经过一段时间，这段时间暂称作超时时长。HDFS默认的超时时长为10分钟+30秒。如果定义超时时间为timeout，则超时时长的计算公式为：
timeout = 2 * dfs.namenode.heartbeat.recheck-interval + 10 * dfs.heartbeat.interval
而默认的dfs.namenode.heartbeat.recheck-interval 大小为5分钟，dfs.heartbeat.interval默认为3秒
需要注意的是hdfs-site.xml配置文件的heartbeat.recheck.interval的单位为毫秒，dfs.heartbeat.interval的单位为秒

dfs.namenode.heartbeat.recheck-interval
300000

dfs.heartbeat.interval 3

DataNode的目录结构
和namenode不同的是，datanode的存储目录是初始阶段自动创建的，不需要额外格式化
1）在/opt/module/hadoop-2.7.2/data/tmp/dfs/data/current这个目录下查看版本号
[***@*** current]$ cat VERSION
storageID=DS-1b998a1d-71a3-43d5-82dc-c0ff3294921b
clusterID=CID-1f2bf8d1-5ad2-4202-af1c-6713ab381175
cTime=0
datanodeUuid=970b2daf-63b8-4e17-a514-d81741392165
storageType=DATA_NODE
layoutVersion=-56
2）具体解释
（1）、storageID:存储id号
（2）、clusterID:集群ID，全局唯一标识
（3）、cTime属性标记了datanode存储系统的创建时间，对于刚刚格式化的存储系统，这个属性为0，但是在文件系统升级后，该值会更新到新的时间戳
（4）、datanodeUnid:datanode的唯一识别码
（5）、storageType:存储类型
（6）、layoutVersion是一个负整数，通常只有HDFS增加新特性时才会更新这个版本

姜晓弘

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
DataNode的工作机制

1）、一个数据块在datanode上以文件形式存储在磁盘上，包括两个文件，一个是数据本身，一个是元数据包括数据块的长度，块数据的校验以及时间戳2）、DataNode启动后向namenode注册，通过后，周期性(1小时)的向namenode上报所有的块信息3）、心跳是每3秒一次，心跳返回结果带有namenode给该datanode的命令如复制块数据到另外一台机器，或删除某个数据块。如果超过10...
复制链接

扫一扫