Nsight System and Nsight Compute 性能分析工具

最新推荐文章于 2024-08-23 11:14:15 发布

选与握

最新推荐文章于 2024-08-23 11:14:15 发布

阅读量939

点赞数 15

分类专栏：开发工具文章标签： linux

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xihuanniNI/article/details/140826591

版权

开发工具专栏收录该内容

8 篇文章 0 订阅

订阅专栏

Nsight System

系统级别去分析性能，也就是宏观方向。

Achieved Accupacy低：在Nsight System pipline可以直接看出来

kernel launch 延迟：cpu发起gpu执行kernel过程中，有个kernel launch环节，grid block。优化方法：多个kernel function 合并；cuda graph批量形式执行。

GPU线程太少，grid block少

1）命令行执行

2）在服务器上使用Nsight System生成一个文件，在本地电脑上显示文件。

CPU利用率、Process & thread、OS runtime API、NVTX annotation、cuda & cublas API、cuda kernel & memory transfer、NVTX projected on cuda stream

鼠标方在某个地方，会放大

Nsight Compute

可以比较不同的kernel的性能显存计算

调试cuda代码

cuda focus查看SM、warp、latency

案例1：Nsight system对训练神经网络过程的性能分析

未加NVTX注释

从图中看出是由于数据加载造成GPU空闲的，如红色部分。

数据加载的works=1变为works=8、

案例2：Nsight System 混合精度加速BERT

矩阵计算占了60%

到底使用fp32还是fp16，可以使用Nsight Compute进一步分析。

案例3：Nsight Compute 矩阵转置的kernel分析

memory的不同，影响优化的角度。

读数据时是连续的，一行一行读取的，但在做转置后，写数据时是跳越的不连续的。

在写数据以前，先把数据存在距离计算单元比较近的片上资源shared memory，延迟低。shared memory是sRAM结构，实现转置，速度快。

SM是有提升的

参考

【CUDA进阶】深入理解 Nsight System 和 Nsight Compute_哔哩哔哩_bilibili

NVIDIA Development Tools Solutions - | NVIDIA Developer

NVIDIA性能分析工具Nsight Systems/Compute 的使用介绍_哔哩哔哩_bilibili

关注

15
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
Nsight System and Nsight Compute 性能分析工具

Nsight System and Nsight Compute 性能分析工具
复制链接

扫一扫

专栏目录

选与握 CSDN认证博客专家 CSDN认证企业博客

码龄9年

64: 原创

2万+: 周排名

1万+: 总排名

17万+: 访问

: 等级

1924: 积分

144: 粉丝

190: 获赞

16: 评论

409: 收藏

私信

关注

热门文章

分类专栏

最新评论

opencv图像去畸变
机器人学渣: 根据畸变模型你的代码是添加畸变，不是去畸变。
ubuntu20.4 Ax211 无wifi
三分钟学会释放火球术: 下载的文件先解压，然后复制到 /lib/firmware/ 大概步骤如下：： cd iwlwifi-ty-59.601f3a66.0 sudo cp * /lib/firmware/ reboot
ubuntu20.4 Ax211 无wifi
longxian0505: 复制到的目标位置在哪呢？我这边搜索backport,只有下载的backport-iwlwifi,其他地方都没有？
ubuntu20.4 Ax211 无wifi
三分钟学会释放火球术: 我重装系统了省略了这个步骤，直接下载的固件就是tgz那个，然后复制过去就能用了
ubuntu20.4 Ax211 无wifi
longxian0505: hello,能帮忙分享一下下载的backport-iwlwifi? 我这边git下载不下来，gitee下载的没有iwlwifi-stack-dev, fw-binaries. 邮箱:longxian0505@163.com

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。