大数据基准测试工具HiBench部署与测试

本文详细介绍了如何在Linux环境中搭建HiBench,包括所需软件版本、构建流程、编译HiBench以及测试HadoopBench和SparkBench的步骤。在测试过程中,分别对wordcount基准进行了准备、执行和结果检查,提供了测试日志的查看方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

大数据基准测试工具HiBench部署与测试

构建HiBench

准备工作

构建HiBench测试工具,需要在Linux中安装以下软件:

  • Spark2.4.0
  • Scala2.11.12
  • Maven3.5.0

查看已安装软件
在这里插入图片描述
在这里插入图片描述

这是我安装的版本,看下自己的版本,后面会用到

构建流程

下载HiBench

[root@hadoop102 /]# git clone https://github.com/intel-hadoop/HiBench.git

注: 如果出现-bash: git: command not found,则需要执行命令:yum install -y git,然后再执行上面的命令

在这里插入图片描述
编译HiBench
HiBench的编译形式有很多种,大家可以根据自己的需要进行选择:

  • Build All
  • Build a specific framework benchmark
  • Build a single module
  • Build Structured Streaming

我只需要测试Hadoop和Spark,所以我这里只构建了Hadoop和Spark基准,编译方法:

[root@hadoop102 HiBench]# mvn -Phadoopbench -Psparkbench -Dspark=2.4 -Dscala=2.11 clean package

这个会需要一段时间(几个小时吧,快的话一个小时)

但需要注意,在编译阶段,会出现失败的情况如下(也不一定到最后,可能在上面任何一个SUCCESS的地方出现FAILURE):
在这里插入图片描述
不用担心,再执行上面的命令,直到出现下面的情况:
在这里插入图片描述

测试

根据上面我构建的测试基准,下面测试了HadoopBench和SparkBench

测试HadoopBench

测试HadoopBench,需要进行下面设置:

  • 安装 Python 2.x(>=2.6)
  • 安装bc
  • 构建HiBench
  • 在集群中启动 HDFS、Yarn

配置文件

执行下面的命令

[root@hadoop102 HiBench]# cd conf/
[root@hadoop102 conf]# cp conf/hadoop.conf.template conf/hadoop.conf
[root@hadoop102 conf]# vim hadoop.conf

修改hadoop.conf文件
在这里插入图片描述
进行测试

依次执行下面的命令

 bin/workloads/micro/wordcount/prepare/prepare.sh

在这里插入图片描述

 bin/workloads/micro/wordcount/hadoop/run.sh

在这里插入图片描述
查看report

可以通过HiBench的report里的hibench.report文件,查看下运行结果
在这里插入图片描述
更详细的原始日志可以在相应的执行文件中看bench.log;这次执行的wordcount,所以操作过程如下:

[root@hadoop102 report]# cd wordcount/hadoop/
[root@hadoop102 hadoop]# cat bench.log

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

测试SparkBench

测试HadoopBench,需要进行下面设置:

  • 需要 Python 2.x(>=2.6)
  • 安装bc
  • 构建 HiBench
  • 在集群中启动 HDFS、Yarn、Spark

配置文件

执行下面的命令

[root@hadoop102 HiBench]# cd conf/
[root@hadoop102 conf]# cp conf/hadoop.conf.template conf/hadoop.conf
[root@hadoop102 conf]# vim hadoop.conf

(同上)

[root@hadoop102 conf]# cp conf/spark.conf.template conf/spark.conf
[root@hadoop102 conf]# vim spark.conf

修改spark.conf文件
在这里插入图片描述

进行测试

依次执行下面的命令

 [root@hadoop102 HiBench]# bin/workloads/micro/wordcount/prepare/prepare.sh

prepare.sh启动 Hadoop 作业以在 HDFS 上生成输入数据
在这里插入图片描述

[root@hadoop102 HiBench]# bin/workloads/micro/wordcount/spark/run.sh

将run.shSpark 作业提交到集群
在这里插入图片描述

查看report

可以通过HiBench的report里的hibench.report文件,查看下运行结果
在这里插入图片描述
更详细的原始日志可以在相应的执行文件中看bench.log;这次执行的wordcount,所以操作过程如下:

[root@hadoop102 report]# cd wordcount/spark/
[root@hadoop102 spark]# cat bench.log

(内容比较多,只截取一部分)
在这里插入图片描述

评论 89
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

数据极客圈

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值