【鲲鹏应用迁移】实验：通过鲲鹏开发套件实现Hyper Tuner性能调优（超详细）

X.IO

已于 2022-04-21 10:00:14 修改

阅读量6.1k

点赞数

分类专栏：鲲鹏文章标签：华为云性能优化 linux

于 2022-04-05 02:03:11 首次发布

本文链接：https://blog.csdn.net/weixin_45954198/article/details/123961076

版权

鲲鹏专栏收录该内容

2 篇文章

订阅专栏

基于华为云沙箱实验室的Hyper Tuner性能调优测试学习笔记

一、实验目的：

1. 使用鲲鹏性能分析工具Hyper Tuner创建系统性能分析以及函数分析任务。

2. 使用鲲鹏的NEON指令来提升矩阵乘法执行效率。

二、实验内容及过程：

准备环境
1.1 预置环境
1.2 登录华为云
1.3 登录裸金属服务器BMS
工具安装
2.1 安装依赖的工具（·设置SSH超时断开时间、安装centos-release-scl、安装devtoolset、安装jdk 11版本）
2.2 安装系统性能分析工具Hyper Tuner（下载软件包“Hyper-Tuner-2.2.T3.tar.gz”、安装系统性能优化工具）
2.3 登录系统性能优化工具Hyper Tuner
一维矩阵运算热点函数检测优化
3.1 编译运行“矩阵内存访问”代码（下载代码、编译程序、执行程序）
3.2 系统性能全景分析（创建工程、创建任务、查看采集分析结果）
3.3 进程/线程性能分析（创建任务、查看采集分析结果）
3.4 C/C++性能分析（创建任务、查看采集分析结果）
3.5 结束程序
3.6 NEON指令优化代码（编译程序）
3.7 C/C++性能分析（创建任务、对比优化前后采集分析结果）
3.8 结束程序
实验总结

1. 准备环境

1.1预置环境

在这里插入图片描述

1.2登录华为云

在这里插入图片描述

1.3登录裸金属服务器BMS

·登录成功后，会进入到华为云控制台页面，如下图所示：
在这里插入图片描述
·点击左上角“服务列表”再点击“裸金属服务器BMS”，进入裸金属服务器BMS管理列表。

·在此可查看预置的裸金属服务器BMS的弹性公网IP（红框下方为裸金属服务器BMS的私有IP），如下图所示：

·打开Terminal（终端），执行如下命令（使用上图所示的弹性公网IP地址替换命令中的EIP），登录裸金属服务器BMS：

LANG=en_us.UTF-8 ssh root@EIP

示例如下：
在这里插入图片描述
·如下图所示，接受秘钥：输入“yes”回车；输入密码：aZ8lIuy-x@S01eR（输入密码时，命令行窗口不会显示密码，输完之后直接回车）；
(这里我第一次密码输入错误，所以try again了）

2. 工具安装

2.1安装依赖的工具

·执行如下命令，设置SSH超时断开时间，防止服务器断连：

sed -i '112a ClientAliveInterval 600nClientAliveCountMax 10' /etc/ssh/sshd_config && systemctl restart sshd

示例如下：
在这里插入图片描述
（由于NEON intrinsic加速提升性能要求gcc版本7.3以上，gcc 4.8.5版本部分指令不兼容。执行如下命令，将gcc升级到7.3.1版本。）
·安装centos-release-scl：

yum install centos-release-scl -y

示例如下：
在这里插入图片描述
执行成功如下图所示：

·安装devtoolset：

yum install devtoolset-7-gcc* -y

示例如下：
在这里插入图片描述
执行成功如下图所示：

·激活对应的devtoolset：

scl enable devtoolset-7 bash

示例如下：
在这里插入图片描述
·执行如下命令，安装jdk 11版本并在home目录下重命名为jdk文件夹【需等待约3分钟】：

cd /home && wget https://mirrors.huaweicloud.com/kunpeng/archive/compiler/bisheng_jdk/bisheng-jdk-11.0.9-linux-aarch64.tar.gz && tar -zxvf bisheng-jdk-11.0.9-linux-aarch64.tar.gz && mv bisheng-jdk-11.0.9 jdk

示例如下：
在这里插入图片描述
执行成功如下图所示：

2.2安装系统性能分析工具Hyper Tuner

·执行如下命令，下载软件包“Hyper-Tuner-2.2.T3.tar.gz”安装在“/home”的根目录下，并解压安装包【需等待约5分钟】：

cd /home && wget https://mirrors.huaweicloud.com/kunpeng/archive/Tuning_kit/Packages/Hyper-Tuner-2.2.T3.tar.gz && tar -zxvf Hyper-Tuner-2.2.T3.tar.gz

示例如下：
在这里插入图片描述
执行成功如下图所示：

·执行如下命令（将命令中的“BMS IP”替换为裸金属服务器BMS的【私有】IP）安装系统性能优化工具，默认安装在“/opt”目录下【需等待约4分钟】：
【一定要注意，命令中的‘BMS IP’是需要改的】

cd /home/Hyper_tuner && tar -zxvf Hyper-Tuner-2.2.T3.tar.gz && cd /home/Hyper_tuner/Hyper_tuner && ./hyper_tuner_install.sh -a -i -ip=BMS IP -jh=/home/jdk

示例如下：
在这里插入图片描述
执行过程中，遇到Some risky components, such as binutils and strace, will be automatically installed with the Kunpeng Hyper Tuner, Do you allow automatic installation of these components? [Y/N]，输入“Y”，然后单击键盘“回车”，执行结果如下图所示。
在这里插入图片描述
安装完成后，执行结果如下图所示：

2.3登录系统性能优化工具Hyper Tuner

·打开火狐浏览器新建标签页，访问地址 https://弹性公网IP:8086/user-management/#/login（例如：https:// 123.60.2.198:8086/user-management/#/login）浏览器提示连
【注意不要使用安装完成后给出的访问地址，此处所给出的ip地址为BMS私有IP，需要替换为BMS的弹性公网IP】。
在这里插入图片描述
·之后将进入如下图所示页面。首次登录需要创建管理员密码，默认用户名为tunadmin，密码为tunadmin12#$

在这里插入图片描述
·管理员密码设置成功后，需要用管理员用户名和密码再次登录。

·登录成功后，单击“系统性能分析”，进入系统性能分析操作界面，仔细阅读免责声明后，勾选阅读并同意声明内容，即可进行下一步操作，
如下图所示：
在这里插入图片描述

3. 一维矩阵运算热点函数检测优化

此实验进行矩阵乘法计算，首先测试用普通for loop方式进行一维矩阵乘法计算的性能，然后考虑到矩阵乘法可以拆分并行计算，且并行计算分支相对独立，于是使用鲲鹏的NEON指令来进行计算，检测优化后的执行效率。

3.1 编译运行“矩阵内存访问”代码

·步骤1 下载代码
切换至1.3步骤登录的终端，执行如下命令，在裸金属服务器BMS上创建/home/testdemo目录，进入/home/testdemo目录并下载需要测试的程序：

mkdir /opt/testdemo && cd /opt/testdemo && wget https://sandbox-experiment-resource-north-4.obs.cn-north-4.myhuaweicloud.com/hot-spot-function/multiply.tar.gz && tar -zxvf multiply.tar.gz

示例如下：
在这里插入图片描述
执行成功如下图所示：

·步骤2 编译程序
执行如下命令，进入multiply文件夹，编译multiply.c并赋予执行文件所有用户只读、只写、可执行权限。

cd /opt/testdemo/multiply && gcc -g multiply.c -o multiply && chmod -R 777 /opt/testdemo/multiply

示例如下：
在这里插入图片描述
·步骤3 执行程序
执行如下命令，将multiply测试程序绑定CPU核启动（当前程序绑核到CPU 1，循环运行multiply程序200次），使用后台启动脚本，程序运行的输出（标准输出（1））将会保存到multiply.out文件，错误信息（2）会重定向到multiply.out文件：

cd /opt/testdemo/multiply && nohup bash multiply_start.sh >>multiply.out 2>&1 &

示例如下：
在这里插入图片描述
执行命令：jobs -l，如果当前进程是running状态，如下图所示，则说明程序在运行状态，可以进行下面的步骤。

在这里插入图片描述
【注：执行以下3.2、3.3章节的性能采集时，需要在此multiply程序运行过程中采集，若multiply程序运行结束，3.2和3.3章节操作将无法采集，此时可以重新执行cd /opt/testdemo/multiply && nohup bash multiply_start.sh >>multiply.out 2>&1 & 运行multiply程序，再执行3.2和3.3章节的性能采集。】

3.2 系统性能全景分析

·步骤1 创建工程
在程序运行的过程当中，我们利用工具分析当前程序。回到浏览器“系统性能分析”操作界面，根据提示，单击工程管理旁边“+”按钮创建工程，输入工程名称，如test，勾选节点，当前为此云服务器节点，单击“确认”创建工程，如下图所示：
在这里插入图片描述

·步骤2 创建任务
将光标放到创建好的工程“test”上，会出现按钮，单击“+”创建任务，如下图所示：

弹出如下界面，填写如下：
① 任务名称：自定义工程名称multiply_quanjing，
② 选择分析对象：系统；
③ 分析类型：全景分析；
④ 采样时长：10秒；
⑤ 采样间隔：1秒，
点击“确认”执行
在这里插入图片描述
·步骤3 查看采集分析结果
执行完毕后，显示全景分析的结果，如下图所示。
①总览，点击“检测到CPU利用率高”显示优化建议；
②性能，在CPU利用率的图表中，可以看到top5的CPU核在采集时间内的利用率变化，点击右上角的按钮，可以看到在采集时间内的各项数据的平均值。由此可见，当前CPU核1的使用率（“性能”页签下%CPU的数值）接近100%，并且绝大部分消耗在用户态。说明该程序全部消耗在用户态计算，没有其他IO或中断操作。

在这里插入图片描述

3.3 进程/线程性能分析

·步骤1 创建任务
参照3.2步骤2创建进程/线程性能分析任务，如下图所示。
①任务名称：multiply_process
②分析对象：系统
③分析类型：进程/线程性能分析
④ 采样时长：10秒
⑤ 采样间隔：1秒，
⑥ 采样类型：全部勾选
⑦采集线程信息：打开
点击“确认”执行。
在这里插入图片描述
·步骤2 查看采集分析结果
执行完毕后，显示进程/线程性能分析的结果，如下图所示。

默认排序是按照PID/TID升序排列，以此观察哪个进程造成了CPU消耗，点击CPU右侧降序排列按钮，得到如下图。可以看到multiply程序在消耗大量的CPU，同时全部消耗在用户态中，由此我们可以推测很可能是自身代码实现算法差或Cache Miss问题。
在这里插入图片描述

3.4 C/C++性能分析

·步骤1 创建任务
参照3.2步骤2创建C/C++性能分析任务，如下图所示。
①任务名称：multiply_c
②分析对象：应用（注意我们此时分析确定程序的热点函数，所以不需要在服务器上运行程序，而是直接在工具中选择需要运行的程序，当前是multiply程序）
③应用路径：/opt/testdemo/multiply/multiply（输入程序所在的绝对路径，注意：示例路径里面第一个multiply为文件夹，第二个multiply为可执行程序）
② 分析类型：C/C++性能分析
⑤采样范围：用户态（采样范围分用户态，内核态，所有。因为我们这里发现所有的CPU消耗都在用户态，所以只采集用户态的数据）
⑥二进制/符号文件路径：/opt/testdemo/multiply/multiply（用于采集过程当中，获取函数名和源文件代码）
⑦C/C++源文件路径：/opt/testdemo/multiply/multiply.c（用于采集过程当中，获取函数名和源文件代码）
点击“确认”执行
在这里插入图片描述
·步骤2 查看采集分析结果
执行完毕后，显示C/C++性能分析的结果，如下图所示。在“总览”显示采集运行时长、程序运行的时钟周期数和指令数。在右侧的Top 10 热点函数中，multiply程序中的multiply函数占用了40左右的时钟周期数。
在这里插入图片描述
点击“函数”页签进入下图，可以看到所有函数的信息，包括执行时间，时钟周期，指令数等。

在这里插入图片描述
点击 “multiply” 进入函数模块，可以看到对应的源代码以及汇编代码，如下图。在“代码流”模块，显示不同Basic Block时钟周期的占比，颜色越深，占比越高。例如下图，单击Basic Block2，上方“汇编代码”和“源代码”浅蓝色突出显示占用时钟周期数高的代码行。
在这里插入图片描述

3.5 结束程序

·切换至1.3步骤登录的终端，执行如下代码：
① 通过jobs -l查看multiply程序运行pid（如果程序尚未结束，可以看到后台运行的程序；如果没有输出，说明进程已经结束，不需要进行此步操作）；
在这里插入图片描述
② 通过kill -9杀死进程，替换<multiply程序pid>为刚查到的multiply的pid。
（记得将’程序‘换掉）

3.6 NEON指令优化代码

考虑到矩阵乘法可以拆分并行计算，且并行计算分支相对独立，可以使用鲲鹏的NEON指令来提升执行效率。NEON指令通过将对单个数据的操作扩展为对寄存器，也即同一类型元素矢量的操作，从而大大减少了操作次数，以此来提升执行效率。

·步骤1 编译程序
在“Xfce终端”，执行如下代码，进入multiply文件夹，编译multiply_simd.c并赋予执行文件所有用户只读、只写、可执行权限。

cd /opt/testdemo/multiply && gcc -g multiply_simd.c -o multiply_simd && chmod -R 777 /opt/testdemo/multiply

示例如下：
在这里插入图片描述

3.7 C/C++性能分析

·步骤1 创建任务
回到浏览器，参照3.4的步骤创建C/C++性能分析任务，如下图所示。
① 任务名称：multiply_simd_c
② 分析对象：应用
③ 应用路径：/opt/testdemo/multiply/multiply_simd（程序所在的绝对路径）
④ 分析类型：C/C++性能分析
⑤ 采样范围：用户态
⑥ 二进制/符号文件路径：/opt/testdemo/multiply/multiply_simd
⑦C/C++源文件路径： /opt/testdemo/multiply/multiply_simd.c
点击“确认”执行

在这里插入图片描述
·步骤2 查看采集分析结果
执行完毕后，显示C/C++性能分析的结果。对比multiply程序和multiply_simd程序的C/C++性能分析结果，如下图所示。在“总览”页签下，对比两者的指令数，可以发现优化后的multiply_simd程序指令数大幅减少。
下图为multiply程序C/C++性能分析结果：
在这里插入图片描述下图为multiply_simd程序C/C++性能分析结果：

·点击进入函数“multiply_neon”，查看占有时钟周期数最长的Basic Block和相对应的源代码和汇编代码行，比较multiply和multiply_simd中占有时钟周期最大的代码行对应的“数量（占比）”数值。例如如下图所示：比较multiply程序C/C++性能分析结果的源代码60行，和multiply_simd程序分析结果的源代码71行，其数量（占比）有明显减少，说明优化有效。
下图为multiply程序C/C++性能分析结果：

在这里插入图片描述
下图为multiply_simd程序C/C++性能分析结果：

3.8 结束程序（同3.5）

切换至1.3步骤登录的终端，执行如下代码：
① 通过jobs -l查看multiply_simd程序运行pid（如果程序尚未结束，可以看到后台运行的程序；如果没有输出，说明进程已经结束，不需要进行此步操作）。
在这里插入图片描述
②通过kill -9杀死进程。替换<multiply_simd程序pid>为刚查到的multiply_simd的pid。