CUDA 分块矩阵乘法

最新推荐文章于 2024-03-24 00:00:16 发布

金鳞本鲤

最新推荐文章于 2024-03-24 00:00:16 发布

阅读量1.1k

点赞数 1

本文链接：https://blog.csdn.net/weixin_43906500/article/details/112469844

版权

该博客展示了如何使用CUDA进行分块矩阵乘法。首先，通过C++生成随机矩阵，然后利用CUDA的kernel函数在GPU上进行计算，并与CPU上的矩阵乘法运算时间进行对比，以此展示CUDA加速的效果。

摘要由CSDN通过智能技术生成

cpp文件

#include "stdafx.h"
#include <stdio.h>
#include <stdlib.h> //为rand()及srand()提供函数声明
#include <time.h>

extern "C" int mulWithCuda(float *c, const float *a, const float *b, int size);

int _tmain(int argc, _TCHAR* argv[])
{
   int i = 0, j = 0, k = 0;
   float sum = 0;
   int size = 8;
   srand(time(NULL));
   float * matrix_a = (float *)malloc(size * size * sizeof(float));     //创建一维数组
   float * matrix_b = (float *)malloc(size * size * sizeof(float));     //创建一维数组
   float * matrix_c = (float *)malloc(size * size * sizeof(float));     //创建一维数组
   float * matrix_d = (float *)malloc(size * size * sizeof(float));     //创建一维数组

   for (i = 0; i < size; i++)
   {
       for (j = 0; j < size; j++)
       {
           //生成随机数
           *(matrix_a + i * size + j) = (float)rand() / (RAND_MAX / 10);
           *(matrix_b + i * size + j) = (float)rand() / (RAND_MAX / 10);
       }
   }
   for (i = 0; i < size; i++)
   {
       for (j = 0; j < size; j++)
       {
           printf("%f ", *(matrix_a + i * size + j));
       }
       printf("\n");
   }
   printf("\n");

   for (i = 0; i < size; i++)
   {
       for (j = 0; j < size; j++)
       {
           printf("%f ", *(matrix_b + i * size + j));
       }
       printf("\n");
   }
   printf("\n");
   clock_t start = clock