CUDA基础知识（0）

最新推荐文章于 2024-06-03 18:16:54 发布

wendox

最新推荐文章于 2024-06-03 18:16:54 发布

阅读量923

点赞数

分类专栏： CUDA

本文链接：https://blog.csdn.net/wendox/article/details/50527320

版权

CUDA 专栏收录该内容

7 篇文章 1 订阅

订阅专栏

GPU的主要组成为SPE流处理单元。程序员需要从程序和数据2方面管理多个SPE。流水线的处理方式，使得系统的最快速度为最慢节点的速度。

在遇到收益递减规律时，解决办法是在各个影响因素之间选择一个平衡点。，然互多次复制他。集群计算手打通信速度的限制。每个CPU作为一个节点，一级缓存为内存，二级缓存为网络开关。
一个集GPU内部有许多流处理器簇（SM），类似CPU的核。SM与共享存储连接在一起，然后又与相当于SM间互联开关的二级缓存相连。数据先是存储在全局存储中，然后被主机取出并使用。除留一部分自己处理之外，主机将剩余的数据通过PCI-E互联开关连接送往另一个GPU的存储空间。

早期的GPGPU编程到今天的CUDA编程，重要的进步之一是可编程着色器。他是GPU运行的一些用来计算各种图片效果的小程序。这些着色器很自然地取来那些表示一个多边形图像的三维点集进行处理。着色器一种高度并行的方式，对很多这样的数据集进行相同的操作，从而提供了巨大的计算能力。
由于CPU的主频在4GH左右存在一个速度极限，而且CPU在这个极限点上工作会产生太多的热量，从而导致特殊的昂贵的冷却技术。单线程的问题求解方法切换到多线程同时执行的问题的求解方法。

NVIDIA和CUDA

GPU并不是为执行串行代码而设计的，且只有完全按照并行模式运行时才能发挥它的峰值性能。
2007年NVIDIA为GPU增加了一个编程接口CUDA（compute Unified Device Architecutre）。
CUDA是C的一种拓展，允许使用标准C来进行GPU编程。这个代码既适用于CPU，也适用于GPU。CPU负责派生出在GPU上运行的多线程任务。GPU内部包含调度器将内核程序分配到响应的GPU硬件上。最大加速比受限于程序中串行代码的数量。因此在一开始需要考虑是否能把大量的工作并行化。

GPU的数据是针对单精度数据而不是双精度数据。CUDA编译模型使用了和JAVA语言一样的编译原则，基于虚拟指令集的运行时编译。

refer

https://developer.nvidia.com/how-to-cuda-c-cpp

wendox

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
CUDA基础知识（0）

所有的GPU设备通过PCI-E总线与处理器相连。PCI-E 2.0总线标准，传输速度为5.0GB/s，访问内存需要经过北桥，访问外设需要经过北桥和南桥。北桥服务于所有高度设备，南桥服务于低速设备。CDUA4.0 SDK提供的CPU直连技术诸如infiniBand等高速互联设备10kM以太网卡可以连接到PCI-E总线上。这是可以直接和CPU通信。，无需先经过CPU转发。 Nehalem_X58系统
复制链接

扫一扫