CSR5(极致负载均衡的方案)

出自“CSR5:An Efficient Storage Format for Cross-Platform Sparse Matrix-Vector Multiplication”

提出背景 :

为了避免格式转换的开销,一些算法集中于使用行块方法或分段求和方法来加速基于csr的SpMV。然而,这两种方法都有各自的缺点。对于行块方法,尽管它们对规则矩阵有很好的性能,但由于不可避免的负载不平衡,它们对不规则矩阵的性能可能很低。相比之下,分段求和方法可以实现近乎完美的负载平衡,但由于更多的全局同步和全局内存访问,开销很高。此外,上述工作都不能避免预处理的开销.CSR5格式使CSR格式的三个数组中的一个保持不变,将另外两个数组以原位排列的顺序存储,并添加两组额外的辅助信息。从CSR到CSR5的格式转换只需要两个调优参数:一个与硬件相关,另一个与稀疏性相关(但与结构无关)。由于添加的两组信息通常比CSR格式中的原始三组信息短得多,因此需要的额外空间非常有限。此外,CSR5格式是SIMD友好的,因此可以很容易地在所有带有SIMD单元的主流处理器上实现。基于csr5的SpMV算法由于具有结构独立性和SIMD利用率,无论对规则矩阵还是不规则矩阵都能带来稳定的高吞吐量。

存储格式:

上图是CSR5的储存格式:
主要思路:将非零的元素按照行方向的顺序依次放入多个tile中,tile为\omega * \alpha的2D矩阵。这部分大小可以自己调优。

  • row_ptr:与我们之前的CSR中的代表非零行索引不同,这里的row_ptr主要表示的是该行之上的非零元素之和。
  • tile_ptr:大小为tile数量加1,为每个tile的第一个数所在的行数,并且当tile中有空行,将其值设置为负数,即相反数。
  • tile_desc之y_offset:大小为列数,通过bit_flag数组中的T数量(每个tile的bit_flag的第一个条目被设置为TRUE)。数组第i个的值为前i行所拥有的T数量(i从0开始),用来定位存储位置。换句话说,每个列在数组y_offset中有一个条目作为同一列中所有段的起始偏移量。通过计算tile_ptr[tid] + y_offset[i]该列知道自己在y中的起始位置
  • tile_desc之seg_offset:大小为列数,因为有些行非零元素过多,导致一个tile中,多列的数据其实还是同一行的,所以为了快速求分段和(不是很明白),就设计了该数组。数组第i个的值为该列的右列有多少列为全F。为了生成seg_offset,我们让每个列搜索它的右邻居列,并计算其bit_flag中没有任何true的连续列的数量。以Tile 0为例,它的第二列有且只有一个右邻居列(第三列),其bit_flag中没有任何true。因此,第二列的seg_offset值为1。
  • tile_dsec之empty_offset:大小不确定,可能为0或者tile中segment的数量,即bit_flag中T的数量。当tile中没有空行,大小就为0。当有空行,即y_offset记录了不正确的偏移量,empty_offset代表了每个T所在第几行,即偏移值。

算法:

因为tile的信息都是相互独立的(tile_ptr,tile_desc,col_idx,val),所以可以在分配的时候为每个tile分配一堆线程比如nvidia上的一个warp。

 上图即为基于CSR5存储格式的快速segment算法详细结构。

简单剖析代码:

对于大循环,一次处理一列,在这一列的小循环中,计算矩阵与向量相乘结果。

在这里分为三种情况:

 段在该列中完整的为绿色

段在该列中下端未封闭的为蓝色

段在该列中上端为未封闭的为红色

在顶部和底部都未封闭则也为红色

对于绿色的部分,可以直接放入out中

对于红色部分则需要进行segment sum在与蓝色相加再放入out中

需要注意:

  • 考虑tile之间的同步,由于同一矩阵行可能会受到多个同时运行的2D tile的影响,一个tile的第一个和最后一个段需要通过原子添加
  • 对于不是一个完整块中的最后一个项,我们在所有完整的tile被消耗后执行传统的CSR-vector方法

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值