利用规约算法实现求解数组元素最大值

本文介绍了如何使用CUDA在GPU上实现规约算法,通过共享内存和线程块协作,找出给定数组的最大值及其索引。展示了从内存分配、数据传输到结果提取的完整过程。
摘要由CSDN通过智能技术生成

规约算法原理可参照上一篇关于规约算法求解数组和的博客,此处不再详细介绍,直接给出代码实现过程及注释。

#include <stdio.h>
#include <stdlib.h>

#define N 1000 // 数组大小

__global__ void findMax(int *array, int *maxValue, int *maxIndex) {
    __shared__ int s_maxValue;//保证每一个块在实现执行此函数时都会首先申请一块共享内存用来存储最大值
    __shared__ int s_maxIndex;//保证每一个块在实现执行此函数时都会首先申请一块共享内存用来存储最大值索引
    
    int tid = threadIdx.x;
    int idx = blockIdx.x * blockDim.x + threadIdx.x;
    
    // 初始化共享内存
    if (tid == 0) {
        s_maxValue = array[0];
        s_maxIndex = 0;
    }
    __syncthreads();
    
    // 在每个线程块内找到局部最大值及其索引(注意是线程块内部)
    for (int i = idx; i < N; i += blockDim.x * gridDim.x) {
        if (array[i] > s_maxValue) {
            s_maxValue = array[i];
            s_maxIndex = i;
        }
    }
    __syncthreads();
    
    // 由于块间共享内存的数据无法实现共享,因此此处需要将每个线程块的最大值和索引都写回全局内存
    if (tid == 0) {
        maxValue[blockIdx.x] = s_maxValue;
        maxIndex[blockIdx.x] = s_maxIndex;
    }
}

int main() {
    int array[N]; // 定义数组
    int *dev_array, *dev_maxValue, *dev_maxIndex; // 定义CUDA变量
    int maxValue[N / 256], maxIndex[N / 256]; // 存储每个线程块的最大值和索引

    // 在设备上分配内存
    cudaMalloc((void**)&dev_array, N * sizeof(int));
    cudaMalloc((void**)&dev_maxValue, (N / 256) * sizeof(int));
    cudaMalloc((void**)&dev_maxIndex, (N / 256) * sizeof(int));

    // 初始化数组
    for (int i = 0; i < N; i++) {
        array[i] = rand() % 1000; // 使用更大的范围生成随机数
    }

    // 将数组拷贝到设备
    cudaMemcpy(dev_array, array, N * sizeof(int), cudaMemcpyHostToDevice);

    // 调用内核函数
    findMax<<<N / 256, 256>>>(dev_array, dev_maxValue, dev_maxIndex);

    // 将结果从设备拷贝回主机
    cudaMemcpy(maxValue, dev_maxValue, (N / 256) * sizeof(int), cudaMemcpyDeviceToHost);
    cudaMemcpy(maxIndex, dev_maxIndex, (N / 256) * sizeof(int), cudaMemcpyDeviceToHost);

    // 在主机端找到全局最大值及其对应位置
    int globalMaxValue = -1, globalMaxIndex = -1;
    for (int i = 0; i < N / 256; i++) {
        if (maxValue[i] > globalMaxValue) {
            globalMaxValue = maxValue[i];
            globalMaxIndex = maxIndex[i];
        }
    }

    printf("数组最大值为: %d, 位于索引位置: %d\n", globalMaxValue, globalMaxIndex);

    // 释放设备上分配的内存
    cudaFree(dev_array);
    cudaFree(dev_maxValue);
    cudaFree(dev_maxIndex);

    return 0;
}

  • 16
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值