NVIDIA GPU- 流式多处理器（Streaming Multiprocessor）

最新推荐文章于 2025-03-24 20:10:58 发布

青衫客36

最新推荐文章于 2025-03-24 20:10:58 发布

阅读量4.2k

点赞数 3

文章标签： GPU

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43844521/article/details/133906144

版权

流式多处理器（Streaming Multiprocessor，简称SM）是NVIDIA GPU的基本计算单元。理解SM的结构和功能对于最大限度地利用GPU的计算能力非常重要。以下是SM的详细介绍：

基本定义:
- 在NVIDIA GPU中，每个SM都可以并行执行多个线程。
- 一个SM包含了多个CUDA核心（或称为ALU、SP、CUDA核心），每个核心可以在一个时钟周期内执行一个线程。
线程束（Warp）:
- 一个线程束是由32个线程组成的，它们会被同时调度到一个SM上执行。
- 但这32个线程执行相同的指令但对不同的数据，即SIMD（单指令多数据）的并行执行模式。
块与SM的关系:
- 当我们在CUDA中启动一个内核，线程块会被分派到可用的SM上执行。
- 一个SM可以同时执行多个线程块，但一个线程块在其生命周期中只会执行在一个SM上。
- 一个SM上可以运行的线程数受到其寄存器和共享内存的限制。
资源分配:
- 每个SM都有一定数量的寄存器、共享内存、L1缓存和其他资源。
- 线程块内的线程共享这些资源。
- 寄存器和共享内存的使用量决定了一个SM上可以执行的最大线程和线程块数量。
调度与执行:
- SM包含一个或多个调度器，它们会从多个线程束中选择线程束进行执行。
- 当一个线程束在等待某事件（例如内存读取）时，调度器可以快速切换到另一个线程束，以保持ALUs的忙碌并隐藏延迟。
架构的差异:
- 不同的NVIDIA GPU架构（例如Turing, Pascal, Maxwell, Kepler等）具有不同的SM设计和资源配置。
- 例如，某些架构可能在每个SM上有更多的CUDA核心，而其他架构可能有更多的共享内存或寄存器。
重要性:
- SM是NVIDIA GPU的计算引擎。为了充分利用GPU，我们需要充分利用所有的SM。
- 当设计CUDA程序时，考虑如何均匀地将工作负载分配到每个SM上并最大化其利用率是很重要的。

总结：SM是NVIDIA GPU的核心计算单元，负责执行CUDA线程。理解其工作原理有助于更好地设计和优化CUDA程序。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

青衫客36 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。