NVIDIA CUDA 高度并行处理器编程（三）：CUDA存储器习题

进击的博仔

已于 2022-05-21 22:14:50 修改

阅读量695

点赞数 3

分类专栏： CUDA入门文章标签： c语言 linux

于 2022-05-21 22:13:10 首次发布

本文链接：https://blog.csdn.net/weixin_45773137/article/details/124900412

版权

习题一中第一题，矩阵加法。可以使用共享存储器减少全局存储器对宽带的消耗吗？
答：不可以，在每个线程计算一个的 kernel 函数中，每个线程只访问两个所需元素，且每个元素只被访问并加载一次。因为没有元素的重复访问，所以不能使用共享存储器减少全局存储器对宽带的消耗。
对于分块矩阵乘法，证明全局存储器宽带的减少正比于块的维度大小。
证明：不用分块的每个元素要加载 n 次，假设块维度 i，则每个块需要加载 n/i + 1 次。得证。
分块乘法中，忘记使用 __syncthreads()，会发生哪种错误？
答：加载的一部分不加的话，可能有些元素未加载就被访问，会出错；计算的一部分不加的话，有些线程还没计算完，加载就已经开始了，也会出错。
如果容量对于寄存器和共享存储器不是问题，解释使用共享存储器要优于寄存器的原因。
答：共享存储器在块内，线程之间可以相互通信读值，读值时可以通过 warp 合并来增加宽带。
对于分块矩阵乘法的 kernel 函数，如果使用 32 x 32 的块，那么输入矩阵 M 和 N 的宽带使用率将降到多少？
答：原使用量的 1/32。
假定启动一个包

关注