基于CUDA的GPU并行计算技术实现网课课表编排_连通域标记的gpu并行算法—

本文链接：https://blog.csdn.net/xinew4712/article/details/109994262

这篇文章是用来填这个坑的：https://blog.csdn.net/xinew4712/article/details/108276264

上篇文末设想的是用天灾和定向改造机制来提高排课运算的效率，结果并不尽如人意。虽然如此，我还是会把天灾和基因改造算法帖出来，抛砖引玉吧。

而为了提高效率，最终采用的是基于CUDA的GPU并行计算技术，这也是个不小的坑，而且不论中文环境还是github都没有类似的样本先例，github上有两个基于CUDA的时间表算法代码，使用的是假设的损失函数做核函数，没有实际应用价值。

可能时间表问题本身并不适合做GPU并行计算，该问题形成的矩阵是变长的，而并行算法擅长的图像处理，都是使用定长（指定分辨率）的图片。

而本文还是用基于CUDA的GPU并行技术把网课课表编排实现了，水平有限，其中有两个算法写好了核函数，可是长时间运行，总是报错，并行代码的bug太难查了，索性采用串并结合的方案把任务跑下来了。

这是可以解决实际问题的代码，已经在实际教学中用于课表编排，文末会提供源码和真实数据（已脱敏），也请各位大牛批评指点，隐藏其中的bug是怎么回事？

即便是串并结合，效率也大大高于纯CPU代码，还是有一定的应用价值的。

先把上篇文章的坑填了，天灾机制：

            # 在取得精英种群之后，50代以内3次不进化，启动天灾，消灭精英，形成突变，为种群发展提供更多可能。
            # 天灾机制有待研究，30%的精英率，经过4代的繁衍，就可以让精英的后代布满整个种群，
            # 百代之后的天灾消灭不了精英，种群发展会进入死胡同。应该全部杀掉，重新初始化。

            if i < 50 and noEvolution > 2:
                noEvolution = 1
                print('进程号：{} | 迭代: {} | 发生天灾'.format(os.getpid(), i + 1))
                newPopulation = []
                psize = [j for j in range(0, self.popsize)]
                #list求差，找出所有非精英个体，然后取序号前30。
                c = list(set(psize).difference(set(eliteIndex)))
                for k in range(0, self.elite):
                    newPopulation.append(self.population[c[k]])
            if i > 300 and noEvolution > 100 and bestScore > 30:
                print('进程号：{} | 迭代: {} | 重新进化'.format(os.getpid(), i + 1))
                # 开启新的进化。
                break

在不改变损失值的情况下，生成所有可能的方案，填充种群，让这样定向改造后的种群，自由繁衍：

def test(schedules):
    #对每一个元素执行一次，生成所有可以定向改造的方向。
    index1 = schedulesId.index(input_str)
    print("原时段：" + schedules[index1].liveTime)
    for i in range(len(schedulesTime)):
        conflict = 0
        schedules[index1].liveTime = schedulesTime[i]
        for m in range(0, len(schedules) - 1):
            for n in range(m + 1, len(schedules)):                
                if schedules[m].teacherId == schedules[n].teacherId and str(schedules[m].liveTime) == str(schedules[n].liveTime):
                    conflict += 1
                if str(schedules[m].liveTime) == str(schedules[n].liveTime):
                    conflict += len(schedules[m].classId) + len(schedules[n].classId) - len(list(set(schedules[m].classId +
                                                                                                     schedules[n].classId)))
        print("时段"+str(i+1)+":"+str(schedulesTime[i])+"，冲突数:"+str(conflict))

下面开始本文的正文。

一、问题的引出。

为什么要考虑用GPU并行计算来解决排课问题，主要原因是CPU慢。

第一次用遗传算法解决排课问题时，补考报名还没有开放，所有上网课的学生都是正考的，为正考学生排课，有简便的解决思路：即用班级号代替学号检查冲突，因为同一班级的所有学生选课是一样的，只要保证班号不存在课程冲突，学号也一定不会冲突，而班号只有1万多个，课程200来门，整体计算量并不大，传统的CPU串行编程也能在比较短的时间内算出可行解来。

而当补考的学生也开始上网课，不少学生开始报怨课程冲突，后面再次排课时，有必要考虑补考学生的正常学习需要。当然，混学分的不在考虑范围内，有的学生一个学期补考10来门，为了计算简便是不需要考虑的，设计目标是要求补考科目在4门以下的学生，保证其课表无冲突。这时，一个自然班每个学生选课开始出现差异，用班号来检查冲突不可行，唯有靠学号了。

统计一下选课人数，近200门课，近50万条选课记录，运算复杂度要爆炸了。虽然理论上，使用一样的算法，CPU也一定能算出可行解，但时间的消耗十分巨大，后面会有对比图。

我们知道，一般的电脑，CPU有十几二十个核心算是比较不错的了。而一般的GPU，有一两千的核心都是很普通很平常的，虽然GPU核心没有CPU核心那么强大，但它胜在数量多，这里举个形象的例子：20个数学老师和2000个小学生PK，同时运算2万道100以内加减法，请问，谁先做完？答案不言而喻吧。这就是考虑使用GPU进行科学计算的理论基础了。而程序猿的任务就是把复杂问题简单化，把具体任务切割成并行计算的一个一个小任务，同时丢给几千个GPU核心去计算，再收集处理返回结果。大多数情况下，传统编程中的for循环都适合改造成并行代码，比如第3次循环的结果并不影响第5次的运算，这样的场景都适合切割任务后交给GPU并行运算。

二、初识并行计算。

对于编写串行代码20年的老程序猿，串行思想根深蒂固，转变思想是最难的，要跳出习以为常的舒适思维框架，重新以并行的角度思考问题。想简单加个装饰器就并行化，那样的想法太幼稚了，代码基本是要重写的，由于经验不足，重写了还不止一次。

其实，在去年研究计算机深度学习时，就接触过GPU并行计算，但那基本上是使用封装好的框架，是基于Tensorflow的并行计算，自己并不清楚底层如何运作，数据是怎么在CPU与GPU之间流动，全局显存、共享显存有什么区别，如何基于线程、块、网格分割数据使代码更高效运行，自己的显卡有多少流处理器，有多少cuda核，每个块有多少缓存，一概不知。这次使用numba库基于cuda开发小程序，算是把这些弄清楚了，甚至还写了一些C代码进行性能对比。

三、代码重温。

GPU端运行的代码，称为核函数。核函数是比较娇气的，有两样东西她是不支持的：这也不支持，那也不支持。

1、自定义对象是用不了的，甚至连list都不行，所有运算都基于numpy矩阵，那就直接从csv中读取数据：

# 读取课程教师关系数据,有表头，去掉。
courseTeacher = np.loadtxt("222.csv", delimiter=",", skiprows=1, dtype=np.int32)
# 读取课程与班级（学号）对应关系数据。注意生成数据时取classId的“id”。对应关系为班级时，只考虑正考。对应关系为学号时，考虑了补考。
courseStudent = np.loadtxt("555.csv", delimiter=",", dtype=np.int32)

2、由于最简单的排序都不支持，在生成数据源时，在excel中顺手给它排个序，程序处理时要高效方便的多。

3、随机函数不支持。我也不知道怎么在核函数中写生成随机数算法（据说可以），那就在CPU中生成好，传给她。这时要培养一个新习惯，CPU端变量加上“_host”，GPU端变量加上”_device”，不然容易搞混了。

randTwinsArray_host = np.random.randint(0, Maxrow, size=[n, 2])
randTwinsArray_device = cuda.to_device(randTwinsArray_host)
randIntArray_host = np.random.randint(0, Esize, size=[n, ])
randIntArray_device = cuda.to_device(randIntArray_host)

4、变量定义支持，但要非常小心。

Local Memory、Shared Memory分别是多少，要根据自己的显卡跑代码查询一下，矩阵大了，不小心就溢出了。

def query_device():
    drv.init()
    print('CUDA device query (PyCUDA version) \n')
    print(f'Detected {drv.Device.count()} CUDA Capable device(s) \n')
    for i in range(drv.Device.count()):

        gpu_device = drv.Device(i)
        print(f'Device {i}: {gpu_device.name()}')
        compute_capability = float( '%d.%d' % gpu_device.compute_capability() )
        print(f'\t Compute Capability: {compute_capability}')
        print(f'\t Total Memory: {gpu_device.total_memory()//(1024**2)} megabytes')

        # The following will give us all remaining device attributes as seen
        # in the original deviceQuery.
        # We set up a dictionary as such so that we can easily index
        # the values using a string descriptor.

        device_attributes_tuples = gpu_device.get_attributes().items()
        device_attributes = {}

        for k, v in device_attributes_tuples:
            device_attributes[str(k)] = v

        num_mp = device_attributes['MULTIPROCESSOR_COUNT']

        # Cores per multiprocessor is not reported by the GPU!
        # We must use a lookup table based on compute capability.
        # See the following:
        # http://docs.nvidia.com/cuda/cuda-c-programming-guide/index.html#compute-capabilities

        cuda_cores_per_mp = { 7.5 : 64, 5.1 : 128, 5.2 : 128, 6.0 : 64, 6.1 : 128, 6.2 : 128}[compute_capability]

        print(f'\t ({num_mp}) Multiprocessors, ({cuda_cores_per_mp}) CUDA Cores / Multiprocessor: {num_mp*cuda_cores_per_mp} CUDA Cores')

        device_attributes.pop('MULTIPROCESSOR_COUNT')

        for k in device_attributes.keys():
            print(f'\t {k}: {device_attributes[k]}')

5、CPU与GPU是异步计算的，CPU把任务交待下去了，GPU就老老实实算，算没算完，CPU不管的，要想等待GPU的结果再做下一步打算，要同步一下。

# 等待所有并发线程计算结束
cuda.synchronize()

6、越是高频、简单的运算，在GPU端并发执行，效果越好，在核函数中跑一些小小的循环，可以高效复用线程，毕竟线程的创建和销毁也要消耗资源的，下面是在核函数中跑损失函数：

@cuda.jit
def gpu_cost(cs, ct, conflicts, n):
    pos = cuda.threadIdx.x + cuda.blockIdx.x * cuda.blockDim.x
    # if pos == 0 :
    #     sA = cuda.shared.array(shape=(175, 3), dtype=np.int32)
    #     sA = ct
    # cuda.syncthreads()
    if pos < n:
        conflicts[pos] = 0
        # 并行计算，用该线程索引所在元素，与该元素后面的每一个元素做对比
        for j in range(pos + 1, n):
            # 学号相同则判断是否冲突，不同不冲突
            if cs[pos][1] == cs[j][1]:
                # 历遍ct表，找courseId对应的时间
                for i in ct:
                    # 该线程索引所在元素的courseId与ct相同，则改courseId为LiveTimeId
                    if cs[pos][0] == i[0]:
                        cs[pos][0] = i[2] * 100000000 + cs[pos][1]
                    # 对后面的每一个元素转换courseId到LiveTimeId
                    if cs[j][0] == i[0]:
                        cs[j][0] = i[2] * 100000000 + cs[j][1]
                 # 如果有相等，那就是冲突了，返回该线程值为1
                if cs[pos][0] == cs[j][0]:
                    conflicts[pos] = 1
                    break
            else:
                break

7、同样的，交叉和变异函数也是高频调用的，也写好了核函数，它能运行，但经不住时间考验，跑着跑着就unknow ERROR了，还没查出原因：

@cuda.jit
def gpu_cross(newPopulation_device,
             resultCrossPopulation_device,
             Maxrow,
             randTwinsArray_device,
             randIntArray_device,
             n_cross):

    pos, row = cuda.grid(2)
    if pos < n_cross and row < Maxrow:
        new_row = randIntArray_device[pos] * Maxrow + row
        resultCrossPopulation_device[pos][row][0] = newPopulation_device[new_row][0]
        resultCrossPopulation_device[pos][row][1] = newPopulation_device[new_row][1]
        resultCrossPopulation_device[pos][row][2] = newPopulation_device[new_row][2]
        cuda.syncthreads()
        if row == 0:
            index_a = randIntArray_device[pos] * Maxrow + randTwinsArray_device[pos][0]
            index_b = randIntArray_device[pos] * Maxrow + randTwinsArray_device[pos][1]
            tmp = resultCrossPopulation_device[pos][index_a][2]
            resultCrossPopulation_device[pos][index_a][2] = resultCrossPopulation_device[pos][index_b][2]
            resultCrossPopulation_device[pos][index_b][2] = tmp
@cuda.jit
def gpu_mutate(newPopulation_device,
             resultMutprobPopulation_device,
             liveTime,
             Maxrow,
             randIntArray_device,
             randRandArray_device,
             n_mutprob):
    pos, row = cuda.grid(2)
    if pos < n_mutprob and row < Maxrow:
        new_row = randIntArray_device[pos] * Maxrow + row
        resultMutprobPopulation_device[pos][row][0] = newPopulation_device[new_row][0]
        resultMutprobPopulation_device[pos][row][1] = newPopulation_device[new_row][1]
        resultMutprobPopulation_device[pos][row][2] = newPopulation_device[new_row][2]
        cuda.syncthreads()
        mut = resultMutprobPopulation_device[pos][row][2]
        if randRandArray_device[pos] > 0.5:
            if mut < liveTime:
                mut += 1
            else:
                mut -= 1
        else:
            if mut - 1 > 0:
                mut -= 1
            else:
                mut += 1
        resultMutprobPopulation_device[pos][row][2] = mut
        cuda.syncthreads()

8、流水线控制。CPU与GPU运算是异步的，GPU与总线传输也是异步的，GPU没有必要等待所有数据传输完再开始运算，数据传输一部分就可以开始运算了，这就需要流水线控制，把一个具体任务分配到不同的流，默认流与多流对比：

代码实现：

# 创建x个cuda stream
stream_list = list()
for i in range(0, number_of_streams):
    stream = cuda.stream()
    stream_list.append(stream)
# 定义每个块的线程数
threads_per_block = 64
# 每个stream的处理的数据变为原来的1/x
blocks_per_grid = math.ceil(segment_size / threads_per_block)
streams_gpu_result = np.empty(n).astype(np.int32)
streams_out_device = cuda.device_array(segment_size)

# 启动多个stream
for i in range(0, number_of_streams):
    # 传入不同的参数，让函数在不同的流执行
    # 将数据复制到显存
    x_i_device = cuda.to_device(cs[i * segment_size: (i + 1) * segment_size], stream=stream_list[i])
    y_i_device = cuda.to_device(ct, stream=stream_list[i])
    gpu_cost[blocks_per_grid, threads_per_block, stream_list[i]](
        x_i_device,
        y_i_device,
        streams_out_device,
        segment_size)
    # 将结果从显存复制回内存
    streams_out_device.copy_to_host(stream=stream_list[i])
    streams_gpu_result[i * segment_size: (i + 1) * segment_size] = streams_out_device.copy_to_host(stream=stream_list[i])
# 等待所有并发线程计算结束
cuda.synchronize()

9、变长矩阵的处理。定义好流的数量，就要分割数据，而切割时很可能把一个学号切到2个流中，这会导致冲突漏算，要手工填充无意义数据，保证同一学号完整地在同一流中，而总体上，还要把长尾进行特殊处理，这点规模的小数据，在CPU端算一下就好了，然后把结果与GPU返回的合并计算。

# 定义list，存储每个个体的冲突值
conflicts = []
# 考一份cs出来备用，避免修饰过程对原数据造成损坏。
cs = copy.deepcopy(courseStudent)
# 取得cs的原始长度
n = len(cs)
# 准备使用多少个stream，分流不能用于直接求冲突数。数据截断后会造成漏算。
number_of_streams = 5
# 每个stream处理的数据量为原来的 1/x
# 符号//得到一个整数结果，不能整除的部分不流入GPU并行，在CPU端计算
segment_size = n // number_of_streams
# 初始segment_size定了就不能再根据cs长度变化而变化了。
for k in range(0, number_of_streams):
    # print(cs[segment_size*(k+1)])
    # print("CS:" + str(len(cs))+","+str(k*segment_size)+"-"+str((k+1)*segment_size))
    # 判断断点，某流的最后一个元素与下一流的第一个元素是否相同，不同说明运气不错，相同就需要特别处理。
    # 有调试的需要，将流设为1时，本段代码要注释，越界
    if cs[segment_size * (k+1)][1] == cs[segment_size * (k+1)+1][1]:
        i = 1
        # 只要流尾部有相同数据，就循环向前继续找，直到找到不相同的那个，算出index，插入虚拟数据，将真实学号完整挤入下一流。
        while cs[segment_size * (k+1) - i][1] == cs[segment_size * (k+1)][1]:
            i += 1
        for j in range(0, i):
            # 修饰数据，插入i个不存在的学号和课程号，确保不出现某个学号被切到2个流的情况。不存在的课程号没有匹配时段，不造成冲突。
            cs = np.insert(cs, [segment_size * (k+1) + 1 - i], [888000+j, 11111111], axis=0)

# 生成去重码，将时段码乘以100000000，加上教师学生id，去重码相同，表示某时段，有教师或学生课程冲突。
clip_ct[:, 0] = clip_ct[:, 2] * 100000000 + clip_ct[:, 1]
# cs[:, 0] = cs[:, 2] * 100000000 + cs[:, 1]  转用GPU并发处理

# 切片，变一维
clip_ct = clip_ct[:, 0]
# cs = cs[:, 0]
# cs = cs.flatten().astype(np.int32)
# 0.002  cs部分转用GPU并发处理

# 去重
# uniques = np.unique(clip_ct, axis=0)
conflict_ct = len(clip_ct) - quick_remvoal(clip_ct)

# 最后，处理尾巴数据,那些不能整除的部分,尾巴一定会有，但不会太长，适合在cpu端处理
tail = cpu_cost(cs[number_of_streams * segment_size:len(cs)-number_of_streams * segment_size], ct)
# print("GPU 结果：" + str(sum(streams_gpu_result)))
conflicts.append(sum(streams_gpu_result)+tail+conflict_ct)