- 博客(1)
- 资源 (1)
- 收藏
- 关注
原创 CPU版本、全局内存版本、共享内存版本矩阵乘法的实现和分析
前言 矩阵乘法是cuda samples中的一个。所以就从这个较为简单的程序开始熟悉cuda吧。下面的代码有三个部分。 CPU版本:使用三层循环进行常规的矩阵乘法运算。 cuda global memory 版本:使用多个block进行并行计算,但GPU线程访问都是在global memory中。 cuda shared memory 版本:也就是cuda 提供的样例代码。基本思路如下,对矩...
2018-04-13 15:17:31 1364
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人