使用以下步骤来使用 nsys
和 nvprof
命令来检查您的程序是否正在使用 Tensor Cores:
-
确保您的GPU支持Tensor Cores。只有Pascal架构之后的NVIDIA GPU才支持Tensor Cores。您可以在 NVIDIA 官方文档中查看您的GPU是否支持Tensor Cores。
-
启动您的CUDA应用程序,并通过以下命令获取其PID(进程ID):
phpCopy code
$ pgrep <your_application_name>
-
使用
nsys
命令来运行您的CUDA应用程序,并捕获它的性能数据。您可以使用以下命令来运行nsys
:rubyCopy code
$ nsys profile --stats=true -o <output_file_name> -f true -t cuda,nvtx <your_application_name>
这将生成一个名为
<output_file_name>
的输出文件,其中包含有关应用程序性能的详细信息。 -
分析
nsys
的输出文件以确定您的程序是否正在使用Tensor Cores。在输出文件中,您可以查看CUDA核心统计信息,并查找与Tensor Cores有关的统计信息。具体来说,您可以查找以下统计信息:sm__sass_thread_inst_executed_op_fma_pred_on.sum
:执行的预测计算的FMAs总