BCSR(Block Compressed Sparse Row)

库达ZT

已于 2023-07-13 18:28:03 修改

阅读量1.1k

点赞数

分类专栏： SPMV 文章标签：性能优化

于 2023-07-11 19:45:30 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhuangtu1999/article/details/131666892

版权

SPMV 专栏收录该内容

3 篇文章

订阅专栏

前言：

上图是BCSR的示例

BCSR是最流行的块稀疏矩阵格式之一。在BCSR中，所有的块都有相同的大小。为了理解这种格式，想象一个块大小为1的稀疏矩阵。在这种情况下，CSR和BCSR矩阵表示是等效的。块大小的增加不会影响列指针数组和行指针数组。相反，它只是扩展了values数组。也就是说，列和行指针数组包含块的值。块连续地存储在值数组中，极大地降低了内存空间需求。

负载划分策略：

这里我们给出两种BSpMV的负载划分策略，这两种策略都是让一个warp来负责进行一个块行与稠密向量单位乘积，都需要进行warp内的规约，不同之处是：策略1是让一个要求一个warp能覆盖整数个完整的块，策略2要求一个warp能够覆盖整数个完整的列。具体如下：

策略1：

上图展示的是策略1对矩阵A的访存模式，以block size = 2为例，因为一个warp（8个线程）要覆盖完整的块，所以每轮迭代可以处理两个完整的块，同一块行剩下的元素需要在下一轮迭代中被访问，伪码如下：

其中r，c分别对应着在block中的行和列

reduce如上图所示

策略2：

上图展示了策略2的访存模式，block size为3。可以看到，因为我们放宽了对warp覆盖完整块的要求，转变为能够覆盖完整列，这样的负载分配策略允许单个warp能够处理更大的block size，并且较策略1,能够减少inactive threads的数目，此时一个warp中的32个线程中有30个线程处于活跃状态（32%3 = 2），伪码如下：

明天任务：研究加入shared memory

研究失败，这玩意sdata赋初值的过程够官方库跑几个来回的了

下一阶段目标：用shf1完成reduce

博客等级

码龄5年

63
原创

7
点赞

79
收藏

24
粉丝

关注

私信

热门文章

分类专栏

SPMV 3篇
Cuda学习笔记 17篇
小王读研笔记 1篇
TRT 9篇
Infer 10篇
SPGEMM 1篇
多线程基础 4篇
openvino 1篇
trtONNX 5篇
ort 1篇
Unet 1篇
C++ 5篇

展开全部收起

最新评论

使用openvino进行onnx的模型推理过程
小女孩真可爱: 想请教博主一个问题，要是想一次处理两张图片改怎么改呢，也就是一个batch为2
访存优化_2、预取与直写
qw5476487: 借鉴别人的不表明出处么
关于RAII和智能指针
库达ZT: 为什么常量左值引用可以绑定右值？那是因为当常量左值引用绑定右值时，编译器根据常亮左值引用的作用域，在栈或堆上新建临时变量，其生命周期与常量左值引用保持一致。那么倒推一下，因为常量左值引用不可修改的属性，允许其绑定匿名变量也是可以的。
TRT1-CUDA_driver_Api-1 驱动、Check、Context、Memory
CSDN-Ada助手: 恭喜您撰写第20篇博客！标题“TRT1-CUDA_driver_Api-1 驱动、Check、Context”引人入胜。您对驱动、Check和Context的深入探讨让读者受益匪浅。您的持续创作让我们对您的专业知识和经验充满期待。在下一步的创作中，或许您可以探讨一下如何优化驱动和Context之间的交互，以提高系统的效率和性能。同时，如果可以分享一些实际案例或者使用经验，将会更具价值。当然，这只是一些建议，希望能对您的创作提供一些启发。期待您的下一篇博客！
从零构建深度学习推理框架-11 Resnet
DQYanZhixuan: 请问能分享下训练集和测试集以及工程文件吗？

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。