【笔记】CUDA加速

最新推荐文章于 2024-04-19 17:21:31 发布

Ujig

最新推荐文章于 2024-04-19 17:21:31 发布

阅读量5.7k

点赞数 1

分类专栏：笔记文章标签： cuda c++

本文链接：https://blog.csdn.net/weixin_44330072/article/details/104519424

版权

笔记专栏收录该内容

13 篇文章 1 订阅

订阅专栏

概念

CUDA —— 由NVIDIA推出的通用并行计算架构

—— 该架构使GPU能够解决复杂的计算问题

—— 包含了CUDA指令集架构（ISA）以及GPU内部的并行计算引擎

—— 开发人员现在可以使用C语言来为CUDA架构编写程序，将来还会支持其它语言，包括FORTRAN以及C++

—— CUDA解码技术直接调用GPU中的流处理器进行解码运算，而之前一直是调用GPU中相应的专用视频解码模块

NVIDIA显卡驱动版本，CUDA版本，cudnn版本之间关系及如何选择

https://blog.csdn.net/iamqianrenzhan/article/details/89343601

为什么要用CUDA？

在科学计算领域所要用到的计算往往不是我们熟知的普通矩阵，而是千维甚至万维的矩阵，而普通的CPU串行计算往往不能满足与科学计算所要求的性能。最好的例子就是深度学习，可以说深度学习起源于感知机但正真发展在于计算能力的提高，也就是显卡计算的兴起。深度学习的计算都是基于矩阵的计算，而普通一个识别手写数字的神经网络都有上千个隐含节点，故CUDA性能优化是一门重要的技术。

为什么显卡可以加速？

首先，显卡可以加速最大的原因是其含有上千个CUDA核心，而CPU的核心往往都在各位数，这就决定了显卡可以高度并行的对一些高维度矩阵进行计算。CPU的I/O需要数百上千个周期，串行的计算大部分时间都消耗在I/O上，而显卡则不然，NVIDIA显卡的架构是类似于SIMD架构的SIMT架构，T指的是Threads，也就是单指令多线程架构，上一个线程在进行运算操作时下一个线程就开始I/O操作，类似于指令流水线的形式，当Threads数量足够多时，就可以屏蔽I/O所带来的大量开销，所以本身架构决定了CPU与显卡计算方式的区别。
CPU就好比是一个身强体壮的大汉一下可以挑100公斤粮食，显卡好比是只能挑起10公斤粮食的小矮人，但有20个。现在有2000公斤粮食，I/O相当于需要1分钟时间把粮食装进桶才能挑走（每次只能一个人装桶），运算时间相当于挑一次到目的地需要20分钟。CPU每趟需要21分钟，共20趟，总共需要420分钟。显卡第一趟也需要21分钟，且只能挑10公斤粮食，但第一趟在刚装完桶时，第二个小人就开始装桶了，在第一个小人送完时最后一个小人也装完了桶，接着第一个小人又可以装桶了，所以从共需要2000/10=200个轮回，但每个轮回只需要1分钟，加上最后的小人需要20分钟送完，总计200×1+20=220分钟，比CPU快近一倍的时间。当运算需求越大时，GPU的优势越明显。

CUDA高性能并行计算入门： https://blog.csdn.net/cyhbrilliant/article/details/79434090

Ujig

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
【笔记】CUDA加速

概念CUDA ——由NVIDIA推出的通用并行计算架构 ——该架构使GPU能够解决复杂的计算问题 ——包含了CUDA指令集架构（ISA）以及GPU内部的并行计算引擎 ——开发人员现在可以使用C语言来为CUDA架构编写程序，将来还会支持其它语言，包括FORTRAN以及C++ ——C...
复制链接

扫一扫

专栏目录