Cuda编程3(数组数乘，带宽计算，事件计时)

篮球不火

已于 2024-03-12 09:21:34 修改

阅读量134

点赞数 1

分类专栏： CUDA编程文章标签： c++ c语言

于 2024-03-12 09:18:31 首次发布

本文链接：https://blog.csdn.net/weixin_44851010/article/details/136641215

版权

CUDA编程专栏收录该内容

3 篇文章 0 订阅

订阅专栏

Cuda编程3(数组数乘，带宽计算，事件计时)

说明：本打算用此程序计算两张显卡之间数据传输的带宽，但是本机只有一张显卡，他依然算出来了一个带宽值，望请指点。事件计时函数的基本用法

__global__ void sclarMultiply(float *input, float scalar, float* output, int size)
{
	int idx = blockIdx.x*blockDim.x + threadIdx.x;//线程编号=块编号*块内的线程数+当前线程在此块内的序号
	if (idx < size)
	{
		output[idx] = input[idx] * scalar;//数组中的每个元素乘以一个标量（实际用途：照片增加对比度也是每个元素乘一个倍数）
	}
}
void scalarMultiply()
{

	const int size = 1000;
	const float scalar = 2.0f;

	//分配主机内存
	float* h_input = new float[size];
	float* h_output = new float[size];

	//初始化输入数据
	for (int i = 0; i < size; i++)
	{
		h_input[i] = i;
	}

	//分配设备内存
	float* d_input, *d_output;
	cudaMalloc(&d_input, size*sizeof(float));
	cudaMalloc(&d_output, size * sizeof(float));
	
	//初始化cuda事件，start,stop
	cudaEvent_t start, stop;
	cudaEventCreate(&start);
	cudaEventCreate(&stop);
	
	//根据数组大小实例化核函数用的参数，单个块内有256个线程，有数组索引大小/块大小 +1个块（与下方的numBlocks含义相同)
	const int block_size = 256;
	const int numBlocks = (size + block_size - 1) / block_size;

	//记录开始时间
	cudaEventRecord(start);
	//将输入数据拷贝至设备
	cudaMemcpy(d_input, h_input, size * sizeof(float), cudaMemcpyHostToDevice);

	//执行GPU运算
	sclarMultiply << <numBlocks, block_size >> > (d_input, scalar, d_output, size);
	
	cudaMemcpy(h_output, d_output, size * sizeof(float), cudaMemcpyDeviceToHost);
	//记录结束时间
	cudaEventRecord(stop);
	cudaEventSynchronize(stop);

	//计算事件时间间隔
	float millseconds = 0;
	cudaEventElapsedTime(&millseconds, start, stop);
	std::cout << "用时：" << millseconds<< "   毫秒" << std::endl;

	std::cout << " scalar multiply data:   " << std::endl;
	for (int i = 0; i < size; i++)
	{
		std::cout << h_output[i] << "   ";
	}
	std::cout << std::endl;
	delete[] h_input;
	delete[] h_output;
	cudaFree(d_input);
	cudaFree(d_output);
}