并行计算
文章平均质量分 91
Veilhry
这个作者很懒,什么都没留下…
展开
-
cuda并行程序设计复习(直方图、卷积、扫描、前缀和)
第五章 线程执行效率与SIMDwarp线程时单指令多数据执行(SIMD);warp中的线程执行相同的命令。在任何时间控制发散:当warp中的线程通过不同的控制决策而采取的不同控制路径时,就会发生,采取不同的控制路径的线程会最终为串行执行,当分支或者循环的条件为线程索引时就可能出现,发生在block中(each block is divided into 32-thread warps产生的影响取决于数据,对于数据量较大的程序影响较小,对于大型数据而言边界检查所带来的控制发散影响微不足道,并且内核有大原创 2021-12-29 20:52:21 · 643 阅读 · 0 评论 -
cuda并行程序设计复习(基础概念、矩阵相乘)
第一章CPU和GPU的设计非常不同CPU:面向延时的内核设计,有较大的控制单元与缓存空间 强大的ALU可以较少操作延时, 大型的缓存,减少长延迟的内存访问转换为断延时的高速缓存访问 复杂的控制单元:用于分支延迟和预测,减少数据转发延迟GPU:面向吞吐量的设计核心,具有较多的SIMD单元 小型的缓存为了提高内存的访问量;简单的控制单元,没有分支预测与数据 转发;高能效的ALU,大量延时长但是大量的流水线型运行吞吐量巨大;大量 的线程运行以减少线程原创 2021-12-29 20:51:12 · 1480 阅读 · 0 评论