本地安装
官方网站,需要登录
选择Windows Host下载安装
服务器安装
选择Linux CLI .deb下载,上传到服务器之后,执行以下命令,默认会安装在/opt/nvidia/nsight-systems-cli/2023.2.1/target-linux-x64/,nsys在/usr/local/bin/nsys也有一份,所以直接运行nsys即可。
apt install ./NsightSystems-linux-cli-public-2023.2.1.122-3259852.deb
GUI使用
打开界面之后是下面的界面,点击下拉菜单,连接到远程服务器。
选择红色的SSH,按下enter,之后在点击右侧的小扳手图标,填写服务器的用户和密码。
连接成功之后会显示如下界面,在Command line中填写执行的命令,之后点击右侧的Start开始执行。
CLI使用
CLI(command-line interface,命令行界面),指通过在命令行执行命令生成nsight文件的方式。
#application是程序,application-arguments是程序参数
nsys [global-options] profile [options] <application> [application-arguments]
global-options | options短 | options长 | options值 | 含义 |
---|---|---|---|---|
-h | -f | --force-overwrite | true,false | 覆盖已有的相同名称的文件 |
-v | -o | --output | filename | 输出文件的名称 |
-t | --trace | cuda,cublas,nvtx | 指定trace的api | |
--stats | true,false | 生成统计信息 |
#示例,产生的nsight_t5_fp16下载到本地用nsight工具查看
nsys profile -o nsight_t5_fp16 -f true python temp.py
GUI使用技巧
- 鼠标拖动可以查看此段的kernel执行时间
- 双击选中区域可以放大查看,ctrl+鼠标滚轮也可以放大/缩小
- 在选中区域右键,点击Filter and Reorder,可以重排选中区域的核函数耗时占比和排行。继续右键选中区域,点击Remove Filter,恢复到之前的核函数耗时占比和排行。
- 在左侧边栏Timeline View右键,点击Show in Events View,可以按Duration排序核函数