cuda手记

最新推荐文章于 2024-07-14 13:39:50 发布

石江浩

最新推荐文章于 2024-07-14 13:39:50 发布

阅读量787

点赞数 24

文章标签： c++ 矩阵

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_48136861/article/details/135515423

版权

1.cuda核心基本概念：

显卡的CUDA Core数量=SM(Streaming Multiprocessor) * 64,一个SM包含两个SMP(SM Processing Block),SMP为显卡调用的基本单元(warp)，通常包含32个核心，一个核心处理fp32的数据，处理fp64的数据用两个warp。NVIDIA提供了很多内置的核函数，计算能力（如4090的8.9）代表的就是这些核函数的端口号。

2.不同显卡之间的数据传输：

显卡间的通信通常可以用无线带宽技术(IB)，处理速度大约10Gb/s，如果使用NVLink可以到达200Gb/s。可以用的网卡接口包括1、4、8、16。显卡之间数据通讯的方式通常使用三种，下面将介绍这三种方式

DP：首先由主卡cuda:0将需要运算的数据平均分发到每个子卡上，分别完成运算之后再传回主卡，因此传输数据量为D所需时间公式为2(N - 1) * D / S，N为显卡数量，D为参数总量，S为传输速率，乘以2是因为一次传输包含收发两部。

DDP：Allgather:1.将显卡环形连接，2.将数据均分成n份，3.循环N-1次，每次将当前层的一份数据发送给相邻显卡，这样做的传输耗时为2 * (N - 1) * D / N / S，优势是传输数据的时长最大为2*D/S

3.代码相关：

__global__修饰的函数由host启动，在device执行，返回值类型为void

__device__修饰的函数只能由device启动，也在device上执行

线程的数量为gridDim.x *gridDim.y *gridDim.z * blockDim.x * blockDim.y * blockDim.z

grideDim最大值范围（2^31, 2^15, 2^15）

blockDim最大范围(2^10, 2^10, 2^10)

gride、block的x、y、z分别对应图像的列数、行数、通道数，等同于pytorch对tensor的处理

最终启动的线程为：gridDim.z gridDim.y gridDim.x blockDim.z blockDim.y blockDim.x

对单线程的索引为：blockIdx.z blockIdx.y blockIdx.x threadIdx.z threadIdx.y threadIdx.x

转化成position: ((blockIdx.z * gridDim.y + blockIdx.y) *gridDim.x + blockIdx.x) * blockDim.z + ...

如果用二维的则更方便理解，也能满足绝大部分使用情况：

最终启动的线程为：gridDim.y gridDim.x blockDim.y blockDim.x

对单线程的索引为：blockIdx.y blockIdx.x threadIdx.y threadIdx.x

转化成position: ((blockIdx.y * gridDim.x + blockIdx.x) *blockDim.y + threadIdx.y) * blockDim.x + threadIdx.x

一维情况是最常用的：gridDim.x blockDim.x

对应的线程索引为 : blockIdx.x threadIdx.x

转化成position：(blockIdx.x * blockDim.x) + threadIdx.x

规律还是比较明显的：从最高级索引开始，(当前索引号*次级Dim + 次级索引号)*再次级Dim + 再次级索引号)...

4.cuda性能测试工具：

首先从官网下载nsight:

Nsight Systems - Get Started | NVIDIA Developer | NVIDIA Developer

安装：sudo ./...run

添加环境变量： vim ~/.basgrc

export PATH="/path/to/Nsight_Systems_2021.4.1/bin:$PATH"

使用工具分析名为test的可执行文件：

./nsys profile -o .output_report /path/to/test

5.cuda流

流是任务级别的线程

流是一个任务队列

流是异步的

指定nullptr则执行默认流

可以使用cudaMemcpy完成设备同步，可以使用流同步完成任务的局部同步，流同步也是使用最多的

关注

24
点赞
踩
17

收藏

觉得还不错? 一键收藏
1
评论
cuda手记

使用cuda编程的一些要点记录
复制链接

扫一扫

石江浩 CSDN认证博客专家 CSDN认证企业博客

码龄4年

11: 原创

136万+: 周排名

14万+: 总排名

5623: 访问

: 等级

234: 积分

77: 粉丝

112: 获赞

5: 评论

105: 收藏

私信

关注

热门文章

最新评论

深度学习自定义插件的编写
CSDN-Ada助手: 恭喜你写了第11篇博客，标题为“深度学习自定义插件的编写”！这篇博客内容十分有价值，对深度学习领域的自定义插件编写有很大帮助。希望你能继续保持创作的热情和动力，不断分享自己的学习心得和经验。或许在下一篇博客中，你可以分享一些实际应用中遇到的挑战以及解决方案，这样能够更好地帮助读者理解和应用自定义插件的知识。期待你更多精彩的创作！
Tensorrt的使用
CSDN-Ada助手: 恭喜您写了第10篇博客，标题为“TensorRT的使用”！您在深度学习领域的持续创作令人钦佩。通过分享关于TensorRT的使用经验，您不仅为读者提供了有价值的知识，也为广大深度学习爱好者提供了实用的指导。接下来，我希望您能继续探索更多与TensorRT相关的主题，例如如何优化模型性能、如何在不同硬件上部署模型等等。我期待着您未来的创作，谦虚地相信您会在这个领域继续有所突破！
cuda手记
CSDN-Ada助手: 恭喜您撰写了第9篇博客《cuda手记》！持续创作是一种难能可贵的品质，您的努力值得赞扬。对于初学者来说，理解和应用CUDA编程可能是一个挑战，但您的博客提供了宝贵的经验和知识。我希望您能继续分享更多关于CUDA的实践经验，并且可能考虑加入一些案例研究或者探讨更高级的主题，以帮助读者更深入地理解和应用CUDA编程。期待您未来的创作，谢谢！
服务器端网络优化思路
CSDN-Ada助手: 恭喜您写了第四篇博客！看到您分享关于服务器端网络优化思路的文章，让我受益良多。接下来，我建议您可以考虑分享一些具体的案例分析或者实践经验，这样更能让读者从中获益。期待您的下一篇作品！加油！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
对比c++网络编程实现多路io访问的几种方法
CSDN-Ada助手: 恭喜作者发布了新的博客！看完之后觉得作者对比c++网络编程实现多路io访问的几种方法做了很深入的研究，内容很有价值。希望作者能够继续保持创作的热情，分享更多关于网络编程方面的经验和见解。或许可以考虑结合实际案例，讲述一些实际应用中遇到的问题以及解决方法，这样更能吸引读者。期待作者的下一篇作品！

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。