Hadoop集群破坏试验可靠性验证

最新推荐文章于 2024-09-15 01:19:00 发布

曾阿伦

最新推荐文章于 2024-09-15 01:19:00 发布

阅读量410

点赞数 3

分类专栏： hadoop 文章标签： hadoop 大数据

本文链接：https://blog.csdn.net/zlhblogs/article/details/134872891

版权

hadoop 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

集群环境说明：

准备5台服务器，hadoop1、hadoop2、hadoop3、hadoop4、hadoop5；
分别部署5个节点的zookeeper集群、hadoop集群、hbase集群

本次对于Hadoop集群测试主要分为五个方面：

手动进行datanode节点删除：（阵列卡电池损坏或者添加内存条等情况需要停机，需要手动删除节点，停止服务器运行）无需重启集群服务，保证文件系统的高可用性，数据的完整性，最后验证block副本数目在节点删除后是否恢复到默认设置（即3个副本）
手动进行datanode节点添加：（有淘汰的旧服务器不使用了，加入hadoop集群增加集群存储容量及节点数等）无需重启集群服务，验证数据的可靠性，架构的可扩展性，数据完整性等。
datanode节点被动删除：（服务器主板损坏，网络故障、操作系统故障等导致主机宕机）
datanode每三秒种向namenode发送心跳如果10分钟没有发送心跳，则namenode认为该datanode已经dead，namenode将取出该datanode上对应的block，对其进行复制。
测试过程，在hadoop的文件系统上创建一个30M文件，查看block副本文件的具体分布在哪三个datanode上面，确保第四个节点上无此副本，对其中一个节点执行关机操作，等待10分钟后，namenode节点确认datanode死掉后对其block副本进行复制。查看第四个 datanode上是否有新的block副本，即：副本数目又达到3个。验证正常后下载文件，看文件是否能正常使用。
Datanode节点的磁盘损坏（所有磁盘完全坏掉，或者只是存放block副本的磁盘损坏）
此节点DataNode正常服务，坏掉的磁盘上的数据尽快通知Namenode，namenode对数据块进行复制，查看第四个datanode节点上是否新增了数据块（所损坏磁盘的datanode上存储的数据块）
人为原因操作失误删除了datanode节点上的数据块（此情况与4的磁盘损坏相似）
手动删除block数据块存放目录下的block文件，看一下多长时间恢复，在哪里恢复？

故障场景一、

手动删除集群中任何一台datanode数据节点
【测试描述】
模拟集群中hadoop2数据节点故障（datanode节点数量应该大于dfs.replication设置的文件块复制数，否则在删减datanode时不会成功，一直处于Decommission in process的状态）

【测试步骤】

把每个datanode节点的Block数量重定向一个目标文件为1.txt
本地上传一个30M的file.222文件到hdfs文件系统中，验证是否只有3个datanode节点有数据块？
再次统计每个datanode节点的Block数量重定向到目标文件2.txt，并且与1.txt文件比较有没有增加数据Block
a) hadoop2数据节点已增加一个数据块
b) hadoop3数据节点已增加一个数据块
c) hadoop4数据节点已增加一个数据块
d) hadoop5数据节点未增加一个数据块
在namenode节点hadoop家目录的conf目录下新建一个excludes的文件，写上需要remove的节点IP地址，一行只能一个IP。
修改namenode节点的主配置文件core-site.xml，在configuration内增加如下内容：
在namenode节点执行hadoop dfsadmin –refreshNodes命令，它不用重启集群服务去读取core-site.xml配置文件，也会在后台进行Block块的移动，从移除的Nodes上移动到其它的Nodes上面。
通过hadoop dfsadmin –report查看集群状态能查看到数据是否移除完毕。只有hadoop2数据节点状态是移除状态。
观察一段时间后，等Decommissioned in progress状态变为Decommissioned后，表示此移除的Nodes节点上的所有数据块已全部被复制到其它工作正常的Nodes上，应为3份。
网页上也会显示把移除的节点剔除列表
验证hadoop5数据节点是否有上传过30M文件的数据块
下载hdfs文件系统中的file.222文件到本地，并且验证hbase是否可用

【测试结果】
hadoop集群中手动删除任何其中一台datanode节点，对文件系统没有任何影响。