C++性能优化系列——3D高斯核卷积计算(六)交换维度计算2D卷积

C++性能优化系列——3D高斯核卷积计算(五)2D卷积分离计算 中,基于可分离卷积的性质,先计算x维度卷积,再将y维度卷积计算过程打乱并重组,完成了两个维度的向量化计算。本篇以先计算y维度卷积,后计算x维度卷积的顺序计算2D高斯卷积。

代码实现

代码实现

void Conv2D_Fuse(float* pSrcSlice, int iDim[2], float* pKernel, int iKernelSize, float* pBuffer, float* pDstSlice,float* pSimdKernel)
	{
		int iHalfKernel = iKernelSize / 2;
		for (int y = 0; y < (iDim[1] - iKernelSize + 1); y++)
		{
			float* pDstLine = pDstSlice + (y + iHalfKernel) * iDim[0];
			float* pTmpLine = pBuffer + (y + iHalfKernel) * iDim[0];
			for (int kx = 0; kx < iKernelSize; ++kx)
			{
				float* pSrcLine = pSrcSlice + (y + kx) * iDim[0];
#pragma omp simd
				for (int i = 0; i < iDim[0]; i++)
				{
					pTmpLine[i] += pSrcLine[i] * pKernel[kx];
				}
			}
			Conv1D_Opt_Cmb(pTmpLine, iDim[0], pKernel, iKernelSize, pDstLine);
		}
	}

函数逻辑说明:for循环体内部将原始数据x维度的一条线与一维卷积核的一个元素相乘,将y维度一条线卷积结果计算出来,在调用函数 Conv1D_Opt_Cmb 计算x维度的卷积。函数可以参考 C++性能优化系列——3D高斯核卷积计算(二)FMA向量化计算一维卷积

测试下来计算耗时结果跳变幅度大,为了使执行时间稳定,增加执行次数

#define CONV2DREPT 1000*5

执行时间

TestConv2D(Conv2D_Fuse) cost total Time(ms) 2809
TestConv2D cost Time(ms) 0.5618

执行速度比先x后y的计算顺序稍快。

VTune分析性能

总体执行情况
在这里插入图片描述
提示存在问题Vector Capacity Usage。关于该问题的描述如下:
Vector Capacity Usage is low, which usually indicates the use of floating point scalar instructions or vector instructions with partial vector capacity. Explore the instruction mix breakdown to learn more about vectorized code.
VTune给出的解释是向量化计算中夹杂着标量计算。
函数执行
在这里插入图片描述

可以看到函数执行总指令与上一版本相差不大。
热点问题
在这里插入图片描述
对应之前的Vector Capacity Usage

热点位置:
在这里插入图片描述
可以看到在计算x维度的卷积时,乘加运算是最大的热点。
热点语句汇编
在这里插入图片描述
从热点语句的汇编指令可以看到,执行了一部分标量运算。

联系之前的Vector Capacity Usage问题,这里对其进行解释:
本文是通过ICC编译器做的向量化优化,同时计算的长度是动态设置的,因此无法保证计算长度刚好是256bit的整数倍,因此ICC对于边界元素要进行标量计算。
因为计算长度不固定,而且指令CPI并没有很差,这个问题不需要特殊处理。

总结

本文通过改变2D高斯卷积计算维度顺序,即先y后x,使计算的执行速度进一步提升。后续将通过Intrinsic函数,用指令实现2D高斯卷积。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值