DateNode 工作机制
1.一个数据块在 DataNode 上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。
2.DataNode 启动后向 NameNode 注册,通过后,周期性(6小时)的向 NameNode 上报所有的块信息。
3.心跳是每3秒一次,心跳返回结果带有 NameNode 给该 DataNode 的命令如复制块数据到另一台机器,或删除某个数据块。如果超过10分钟没有收到某个 DataNode 的心跳,则认为该节点不可用。
4.集群运行中可以安全加入和退出一些机器。
<property>
<name>dfs.blockreport.intervalMsec</name>
<value>21600000</value>
<description>Determines block reporting interval in milliseconds.</description>
</property>
<property>
<name>dfs.datanode.directoryscan.interval</name>
<value>21600s</value>
<description>Interval in seconds for Datanode to scan data directories and
reconcile the difference between blocks in memory and on the disk.
Support multiple time unit suffix(case insensitive), as described
in dfs.heartbeat.interval.
</description>
</property>
数据完整性
思考:如果电脑磁盘里面存储的数据是控制高铁信号灯的红灯信号(1)和绿灯信号(0),但是存储该数据的磁盘坏了,一直显示是绿灯,是否很危险?同理 DataNode 节点上的数据损坏了,却没有发现,是否也很危险,那么如何解决呢?
如下是 DataNode 节点保证数据完整性的方法。
1.当 DataNode 读取 Block 的时候,它会计算 CheckSum。
2.如果计算后的 CheckSum,与 Block 创建时值不一样,说明 Block 已经损坏。
3.Client 读取其他 DataNode 上的 Block。
4.常见的校验算法 crc(32),md5(128),shal(160)
5.DataNode 在其文件创建后期周期验证 CheckSum。
- crc验证
# 创建一个文件上传到服务器
[kane@hadoop102 ~]$ pwd
/home/kane
[kane@hadoop102 ~]$ vim a.txt
[kane@hadoop102 ~]$ cat a.txt
abcd
[kane@hadoop102 ~]$ hadoop fs -put a.txt /
EditPlus下载方式查看:EditPlus下载安装和汉化_editplus汉化包-CSDN博客
掉线时限参数设置
<property>
<name>dfs.namenode.heartbeat.recheck-interval</name>
<value>300000</value>
<description>
This time decides the interval to check for expired datanodes.
With this value and dfs.heartbeat.interval, the interval of
deciding the datanode is stale or not is also calculated.
The unit of this configuration is millisecond.
</description>
</property>
<property>
<name>dfs.heartbeat.interval</name>
<value>3s</value>
<description>
Determines datanode heartbeat interval in seconds.
Can use the following suffix (case insensitive):
ms(millis), s(sec), m(min), h(hour), d(day)
to specify the time (such as 2s, 2m, 1h, etc.).
Or provide complete number in seconds (such as 30 for 30 seconds).
</description>
</property>
这回我们把 DataNode 节点启动下
[kane@hadoop104 ~]$ hdfs --daemon start datanode