CUDA global_reduce实现

创造只有你的世界

于 2020-11-17 12:58:54 发布

阅读量215

点赞数

分类专栏： cuda reduce 文章标签： cuda 多线程

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zgh136608/article/details/109740202

版权

cuda 同时被 2 个专栏收录

1 篇文章 0 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

CUDA global_reduce实现

#include <stdio.h>
#include <time.h>
#include <stdlib.h>
#include <cuda_runtime.h>
__global__ void global_reduce(float* d_out, float* d_in)
{
	int myID = blockIdx.x * blockDim.x + threadIdx.x;//得到该线程在全局的线程号
	int idx = threadIdx.x;//得到该线程在所在块的线程号
	for (unsigned int s = blockDim.x / 2; s > 0; s=s/2)
	//算法核心：将一个块中的线程分成2部分，线程块左边的线程操作自己线程所控制的内存再加上与自己操作的内存相差s个相对单位的内存
	//即d_in[myID] += d_in[myID + s]，而右边的线程不做任何操作，之后又将左边的线程分为2部分重复上述操作直到s=0。
	{
		if (idx < s)
		{
			d_in[myID] += d_in[myID + s];
		}
		__syncthreads();//让线程等待，避免下次循环出错
	}
	if (idx == 0)//按照上面的模式，每一个块的最终结果都会记录在该块中第一个线程所操作的值里。
	{
		d_out[blockIdx.x] = d_in[myID];//将结果存入输出数组里
	}
}


int main()
{
	float h_in[1024];
	int i;
	for (i = 0; i < 1024;i++)
	{
		h_in[i] = i;//初始化
	}
	float h_out[1];
	
	float* d_in;
	float* d_out;
	//分配GPU内存
	cudaMalloc(&d_in, sizeof(float) * 1024);
	cudaMalloc(&d_out, sizeof(float));
	//将cpu上的值拷贝到GPU上
	cudaMemcpy(d_in, h_in, sizeof(float) * 1024, cudaMemcpyHostToDevice);
	//启动kernal，此处设置了1个block和1024条thread
	global_reduce << <1, 1024 >> > (d_out, d_in);
	//GPU上的值拷贝回CPU
	cudaMemcpy(h_out, d_out, sizeof(float), cudaMemcpyDeviceToHost);
	//检查并行结果与串行结果是否一致
	float sum = 0;
	for (int i = 0; i < 1024; i++)
	{
		sum += h_in[i];
	}
	printf("%f\n", h_out[0]);
	printf("%f", sum);
	return 0;
}

创造只有你的世界

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
CUDA global_reduce实现

CUDA global_reduce实现#include <stdio.h>#include <time.h>#include <stdlib.h>#include <cuda_runtime.h>__global__ void global_reduce(float* d_out, float* d_in){ int myID = blockIdx.x * blockDim.x + threadIdx.x;//得到该线程在全局的线程号 int
复制链接

扫一扫

专栏目录

创造只有你的世界 CSDN认证博客专家 CSDN认证企业博客

码龄4年

9: 原创

107万+: 周排名

156万+: 总排名

5099: 访问

: 等级

168: 积分

2: 粉丝

13: 获赞

8: 评论

15: 收藏

私信

关注

热门文章

分类专栏

java 2篇
蓝桥杯 1篇
笔记 2篇
python 3篇
爬虫 2篇
cuda 1篇
reduce 1篇
C 1篇
OS 1篇

最新评论

Mybatis向数据库插入中文时成问号
我爱人工智能: 原创不易，博主加油，期待大佬回访！
计算机系统进程状态问题
K.Irving: 如果是多处理机呢？
爬取拉勾网招聘信息笔记
punster_: 小白求教，爬取详情页的时候打印的html页面没有职位信息，返回的html代码如下： [code=html] <html><head><meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1"><meta name="renderer" content="webkit"><meta http-equiv="Content-Type" content="text/html; charset=utf-8"></head><body><script src="/utrack/track.js?version=1.0.1.0" type="text/javascript"></script><script type="text/javascript" src="https://www.lagou.com/utrack/trackMid.js?version=1.0.0.3&t=1618057512"></script><input type="hidden" id="KEY" value="rsagIwk3yl2hnrkI98FuQACf9eerWodYa0dPJ"/><script type="text/javascript">kfGNYOsx();</script>页面加载中...<script type="text/javascript" crossorigin="anonymous" src="https://www.lagou.com/upload/oss.js?v=1010"></script></body></html> [/code]
python爬取豆瓣top250电影知识点记录
从零开始的数据猿: 好文！希望博主以后多多分享哈！
py爬虫笔记
ctotalk: thanks very good

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。