cuda实现gemm

youzjuer

于 2024-10-11 17:28:47 发布

阅读量17

点赞数

分类专栏：通俗易懂技术站文章标签： cuda gemm

本文链接：https://blog.csdn.net/youzjuer/article/details/142847208

版权

通俗易懂技术站专栏收录该内容

82 篇文章 5 订阅 ¥59.90 ¥99.00

订阅专栏

超级会员免费看

一基本分析

1. CUDA GEMM 常规实现方案与理论性能分析

1.1 基于 GEMM 定义的朴素实现

矩阵乘法定义如下：

输入：矩阵A(M行K列），矩阵B(K行N列)
输出：矩阵C(M行N列)

for i from 0 to M-1:
    for j from 0 to N-1:
        C[i][j] = 0;
        for p from 0 to K-1:
            C[i][j] += A[i][p] * B[p][j]

对于 C 矩阵的每一个元素，都要读取 A 矩阵的一行和 B 矩阵的一列来计算，那么计算完整的 C 矩阵，A B 矩阵都要重复读取多次，所以直接按定义计算效率很低。

首先说明，很多文章在解释这种方案性能差的时候，都是以内存延迟太高作为主要理由，实际上在并行计算中

了解本专栏

订阅专栏解锁全文

超级会员免费看

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

youzjuer

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

订阅专栏

cpp-用C和CUDA实现CNN

08-16

用C和CUDA实现CNN”中，我们将探讨如何利用C++语言以及NVIDIA的CUDA并行计算平台来高效地实现CNN的不同版本，包括CPU版本、CUDA原始实现（CUDA_NAIVE）、优化的CUDA实现（CUDA_TILED）以及基于通用矩阵乘法（GEMM）...

CUDA编程之GEMM优化

QQ哥的专栏

10-17

3093

CUDA编程之GEMM优化

参与评论您还未登录，请先登录后发表或查看评论

Cuda GEMM优化

qq_43587345的博客

07-06

所以如果我把矩阵A和B都搬运到on-chip的SMEM上，然后采用和naive GEMM一样的计算方法，那么尽管还是会在SMEM上发生重复读数据的情况（也即总的读写次数和naive一样，只不过现在不是从global memory读取，是从SMEM上读取），可是因为带宽变大了，总体来说数据读取时间肯定减少了。 A和B对应的切块（如图中的红色和黄色块）组成一个cuda编程里的block，这里我们共有4*4 = 16个block，每个block负责计算C矩阵中大小为的部分（图中绿色块）。

GEMM实现（NEON+CUDA）

qq_45642593的博客

12-13

1737

在Fortran编程当中数组是默认按列存储的，而在C/C++当中通常是按行存储的。A的第一行先和B的第一行按照A的通道为1的元素来进行广播相乘，因为B0就是矩阵B的第一行，按照矩阵的乘法，只能和A的第一行的第一个元素相乘，然后累加到寄存器c0中，这样将B的四个行遍历结束后，就能计算出C矩阵中的一行了。然后将上面的思想用到一张640*640的数组中计算，其实就是对矩阵A的行进行4个为一组的分行块，对矩阵B的列进行分列块，每一次分好的块进行4*4的矩阵计算，就能够迭代出整个矩阵C的结果了。

[CUDA 学习笔记] GEMM 优化: 双缓冲 (Prefetch) 和 Bank Conflict 解决

LostUnravel的博客

04-29

2584

CUDA算子优化：矩阵乘GEMM优化(二)

qq_56047026的博客

06-13

1312

A_TILE_ROW_START代表在这个维度为bm*bk的数据块中，当前线程需要搬运的数据的竖向坐标，而A_TILE_COL代表需要搬运的数据的横向坐标。那么我们需要开启（2048/128）*（2048/128）=256个block，每个block里面有（128/8）*（128/8）=256个线程，每个线程需要负责计算C矩阵中8*8=64个元素的结果，每个block负责256*64=16384个元素的结果。在一轮迭代中需要使用bm*bk的数据，为了加快后续的访存，所以需要进行一次转置。

GEMM by CUDA WMMA

gtyinstinct的博客

07-12

1381

GEMM by CUDA WMMA （tensor core）

VS2015+cublas实操记录（cuda加速GEMM矩阵乘加算子）

Thomas_Cai的记忆殿堂

08-12

729

基于cv::gemm算子性能优化实操，尝试用cuda来加速gemm算子而采用cublas库。内附环境配置，以及实战代码。

CUDA算子优化：矩阵乘GEMM优化（一）

qq_56047026的博客

06-12

983

采用最navie的GEMM算法，在GPU中，一共开启m*n个线程，每个线程需要读取矩阵A的一行和矩阵B的一列，而后将计算结果写回矩阵C中。其中，M=m/bm，N=n/bn，K=k/bk。当进行K轮迭代中某一轮迭代时，GPU将维度为bm*bk，bk*bn的小矩阵块存储到shared memory中，而后各个线程将shared memory中的数据存入register中进行计算。在完成以上的过程后，对于一个线程而言，它现在拥有：rm个A矩阵的寄存器值，rn个B矩阵的寄存器值，一级rm*rn个C矩阵的寄存器值。

使用cutlass实现多种精度的GEMM，支持cuda core与tensor core

weixin_42764932的博客

03-27

1830

使用cutlass实现多种精度的GEMM，附有完整代码与cmakelist

cuda-使用cuda并行加速实现之gemv.zip

04-24

本教程将重点讲解如何利用CUDA实现GEMV（General Matrix Multiply Vector）操作的并行加速。 GEMV是线性代数中的一个基本运算，它涉及矩阵与向量的乘法。对于一个m×n的矩阵A和一个长度为n的向量x，GEMV计算结果是...

逆变器PQ控制模型、逆变器并网模型（Simulink）直流侧电压650V～2000V均可交流测电压为380V 有功功率和无功

10-10

逆变器PQ控制模型、逆变器并网模型（Simulink）直流侧电压650V～2000V均可交流测电压为380V 有功功率和无功功率可达10kW或10kVar，甚至更高

SpringBoot+Vue工厂生产设备维护管理系统答辩PPT.ppt

10-10

计算机毕业设计答辩PPT

CPA 税法马兆瑞基础班第10章-本章概述-PPT-8页.pdf