第2章、HDFS_集群压测

HDFS的的读写性能主要受网络(写)和磁盘(读)的影响较大。
100Mbps的单位是bit;10M/s的单位是byte,1byte=8bit,100Mbps/8=12.5M/s。
测试网速:来到 hadoop102 的/opt/software 目录,创建一个

[pcz@hadoop2 software]$ python -m SimpleHTTPServer

然后浏览器输入hadoop2:8000即可查看和下载该目录下的文件

2.1测试HDFS写性能

0)写测试底层原理

在这里插入图片描述

1)测试内容:向 HDFS 集群写 10 个 128M 的文件

[pcz@hadoop1 hadoop]$ cd /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/
[pcz@hadoop1 mapreduce]$ hadoop jar hadoop-mapreduce-client-jobclient-3.1.3-tests.jar  TestDFSIO -write -nrFiles 10 -fileSize 128MB
2022-01-10 15:50:37,142 INFO fs.TestDFSIO: TestDFSIO.1.8
2022-01-10 15:50:37,143 INFO fs.TestDFSIO: nrFiles = 10
2022-01-10 15:50:37,143 INFO fs.TestDFSIO: nrBytes (MB) = 128.0
2022-01-10 15:50:37,143 INFO fs.TestDFSIO: bufferSize = 1000000
.......
2022-01-10 15:51:25,737 INFO fs.TestDFSIO: ----- TestDFSIO ----- : write
2022-01-10 15:51:25,737 INFO fs.TestDFSIO:             Date & time: Mon Jan 10 15:51:25 CST 2022
2022-01-10 15:51:25,737 INFO fs.TestDFSIO:         Number of files: 10
2022-01-10 15:51:25,737 INFO fs.TestDFSIO:  Total MBytes processed: 1280
2022-01-10 15:51:25,737 INFO fs.TestDFSIO:       Throughput mb/sec: 9.62
2022-01-10 15:51:25,737 INFO fs.TestDFSIO:  Average IO rate mb/sec: 9.7
2022-01-10 15:51:25,737 INFO fs.TestDFSIO:   IO rate std deviation: 0.88
2022-01-10 15:51:25,737 INFO fs.TestDFSIO:      Test exec time sec: 46.78
2022-01-10 15:51:25,737 INFO fs.TestDFSIO: 

注意:nrFiles n 为生成 mapTask 的数量,生产环境一般可通过 hadoop103:8088 查看 CPU核数,设置为(CPU 核数 - 1)
➢ Number of files:生成 mapTask 数量,一般是集群中(CPU 核数-1),我们测试虚拟机就按照实际的物理内存-1 分配即可
➢ Total MBytes processed:单个 map 处理的文件大小
➢ Throughput mb/sec:单个 mapTak 的吞吐量
计算方式:处理的总文件大小/每一个 mapTask 写数据的时间累加
集群整体吞吐量:生成 mapTask 数量*单个mapTak 的吞吐量
➢ Average IO rate mb/sec::平均 mapTak 的吞吐量
计算方式:每个 mapTask 处理文件大小/每一个 mapTask 写数据的时间全部相加除以 task 数量
➢ IO rate std deviation:方差、反映各个 mapTask 处理的差值,越小越均衡

2)注意:如果测试过程中,出现异常

(1)可以在 yarn-site.xml 中设置虚拟内存检测为 false

<!--是否启动一个线程检查每个任务正使用的虚拟内存量,如果任务超出分配值,则
直接将其杀掉,默认是 true -->
<property>
 <name>yarn.nodemanager.vmem-check-enabled</name>
 <value>false</value>
</property>

(2)分发配置并重启 Yarn 集群

3)测试结果分析

(1)由于副本 1 就在本地,所以该副本不参与测试
在这里插入图片描述
在这里插入图片描述

一共参与测试的文件:10 个文件 * 2 个副本 = 20 个
压测后的速度:9.62
实测速度:9.62M/s * 20 个文件 =192.4M/s
三台服务器的带宽:100+ 100 + 100 ≈ 30m/s
所有网络资源都已经用满。
如果实测速度远远小于网络,并且实测速度不能满足工作需求,可以考虑采用固态硬盘或者增加磁盘个数。

2.2 测试 HDFS 读性能

1)测试内容:读取 HDFS 集群 10 个 128M 的文件
[pcz@hadoop1 mapreduce]$ hadoop jar hadoop-mapreduce-client-jobclient-3.1.3-tests.jar  TestDFSIO -read -nrFiles 10 -fileSize 128MB
2022-01-10 16:25:50,825 INFO fs.TestDFSIO: TestDFSIO.1.8
2022-01-10 16:25:50,826 INFO fs.TestDFSIO: nrFiles = 10
2022-01-10 16:25:50,827 INFO fs.TestDFSIO: nrBytes (MB) = 128.0
2022-01-10 16:25:50,827 INFO fs.TestDFSIO: bufferSize = 1000000
2022-01-10 16:25:50,827 INFO fs.TestDFSIO: baseDir = /benchmarks/TestDFSIO
.......
2022-01-10 16:26:18,111 INFO fs.TestDFSIO: ----- TestDFSIO ----- : read
2022-01-10 16:26:18,112 INFO fs.TestDFSIO:             Date & time: Mon Jan 10 16:26:18 CST 2022
2022-01-10 16:26:18,112 INFO fs.TestDFSIO:         Number of files: 10
2022-01-10 16:26:18,112 INFO fs.TestDFSIO:  Total MBytes processed: 1280
2022-01-10 16:26:18,112 INFO fs.TestDFSIO:       Throughput mb/sec: 74.84
2022-01-10 16:26:18,112 INFO fs.TestDFSIO:  Average IO rate mb/sec: 94.47
2022-01-10 16:26:18,112 INFO fs.TestDFSIO:   IO rate std deviation: 56.25
2022-01-10 16:26:18,112 INFO fs.TestDFSIO:      Test exec time sec: 25.9
2022-01-10 16:26:18,112 INFO fs.TestDFSIO: 

2)删除测试生成数据

[pcz@hadoop1 mapreduce]$ hadoop jar hadoop-mapreduce-client-jobclient-3.1.3-tests.jar TestDFSIO -clean
在这里插入图片描述

3)测试结果分析:

为什么读取文件速度大于网络带宽?由于目前只有三台服务器,且有三个副本,数据读取就近原则,相当于都是读取的本地磁盘数据,没有走网络。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

TryBest_

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值