C++性能优化系列——3D高斯核卷积计算(八)3D高斯卷积

最新推荐文章于 2024-07-23 20:16:06 发布

USST_Coder

最新推荐文章于 2024-07-23 20:16:06 发布

阅读量1.6k

点赞数 3

分类专栏： # C++性能调优文章标签： simd openmp 并行计算卷积 performance

本文链接：https://blog.csdn.net/yan31415/article/details/108880264

版权

C++性能调优专栏收录该内容

20 篇文章 19 订阅

订阅专栏

本篇基于可分离卷积的性质，按照 X Y Z的顺序，依次计算每个维度的一维卷积。

代码实现

因为是按照X Y Z的计算顺序，因此只能够在计算X维度的卷积时，复用之前实现的一维卷积计算函数。Y维度的计算是将一个Z平面上的二维数据中每行与卷积核中一个点相乘，并将31个点的卷积核计算出的结果累加至一行，更新到中间缓存的目标位置。Z维度的计算是将一个Z平面的二维数据和卷积核中的一个点相乘，并将31个点的卷积核计算出的结果累加至一个二维平面，更新到结果的目标位置。这里对Y 和 Z维度的计算都是通过编译器ICC实现向量化。
代码实现如下：

void GaussSmoothCPU3DBase(float* pSrc, int iDim[3], float* pKernel, int kernelSize[3], float* pDst, float* pBuffer)
	{
		//结果正确
		int iSliceSize = iDim[1] * iDim[0];
		int nCenter = kernelSize[0] / 2;
		for (int z = 0; z < (iDim[2]); z++)
		{
			float* pSrcSlice = pSrc + z * iSliceSize;
			float* pBuffSlice = pBuffer + z * iSliceSize;
			memset(pBuffSlice, 0, iSliceSize * sizeof(float));
			for (int y = 0; y < iDim[1]; y++)
			{
				float* pSrcLine = pSrcSlice + y * iDim[0];
				float* pDstLine = pBuffSlice + y * iDim[0];
				Conv1D_Opt_Cmb(pSrcLine, iDim[0], pKernel, kernelSize[0], pDstLine);
			}
			for (int y = 0; y < (iDim[1] - kernelSize[0] + 1); y++)
			{
				float* pDstLine = pSrcSlice + (y + nCenter) * iDim[0];
				memset(pDstLine, 0, iDim[0] * sizeof(float));
				for (int kx = 0; kx < kernelSize[0]; kx++)
				{
					float* pSrcLine = pBuffSlice + (y + kx) * iDim[0];
#pragma omp simd
					for (int i = 0; i < iDim[0]; i++)
					{
						pDstLine[i] += pSrcLine[i] * pKernel[kx];
					}
				}
			}
		}

		for (int z = 0; z < (iDim[2] - kernelSize[0] + 1); z++)
		{
			float* pDstSlice = pDst + (z + nCenter) * iSliceSize;
			memset(pDstSlice, 0, iSliceSize * sizeof(float));
			for (int kx = 0; kx < kernelSize[0]; kx++)
			{
				float* pSrcSlice = pSrc + (z + kx) * iSliceSize;
#pragma omp simd
				for (int i = 0; i < iSliceSize; ++i)
				{
					pDstSlice[i] += pKernel[kx] * pSrcSlice[i];
				}
			}
		}
	}

执行时间

GaussSmoothCPU3DBase cost Time(ms) 1010.5

多线程并行化

计算逻辑不变，基于OpemMP实现多线程并行化。因此线程数设置8与16分别测试其执行耗时情况，并选择速度最快的版本。
代码实现如下：

void GaussSmoothCPU3DBase(float* pSrc, int iDim[3], float* pKernel, int kernelSize[3], float* pDst, float* pBuffer)
	{
		//结果正确
		int iSliceSize = iDim[1] * iDim[0];
		int nCenter = kernelSize[0] / 2;
#pragma omp parallel for num_threads(16) schedule(dynamic)
		for (int z = 0; z < (iDim[2]); z++)
		{
			float* pSrcSlice = pSrc + z * iSliceSize;
			float* pBuffSlice = pBuffer + z * iSliceSize;
			memset(pBuffSlice, 0, iSliceSize * sizeof(float));
			for (int y = 0; y < iDim[1]; y++)
			{
				float* pSrcLine = pSrcSlice + y * iDim[0];
				float* pDstLine = pBuffSlice + y * iDim[0];
				Conv1D_Opt_Cmb(pSrcLine, iDim[0], pKernel, kernelSize[0], pDstLine);
			}
			for (int y = 0; y < (iDim[1] - kernelSize[0] + 1); y++)
			{
				float* pDstLine = pSrcSlice + (y + nCenter) * iDim[0];
				memset(pDstLine, 0, iDim[0] * sizeof(float));
				for (int kx = 0; kx < kernelSize[0]; kx++)
				{
					float* pSrcLine = pBuffSlice + (y + kx) * iDim[0];
#pragma omp simd aligned(pSrcLine, pDstLine)
					for (int i = 0; i < iDim[0]; i++)
					{
						pDstLine[i] += pSrcLine[i] * pKernel[kx];
					}
				}
			}
		}

#pragma omp parallel for num_threads(8) schedule(dynamic)
		for (int z = 0; z < (iDim[2] - kernelSize[0] + 1); z++)
		{
			float* pDstSlice = pDst + (z + nCenter) * iSliceSize;
			memset(pDstSlice, 0, iSliceSize * sizeof(float));
			for (int kx = 0; kx < kernelSize[0]; kx++)
			{
				float* pSrcSlice = pSrc + (z + kx) * iSliceSize;
#pragma omp simd
				for (int i = 0; i < iSliceSize; ++i)
				{
					pDstSlice[i] += pKernel[kx] * pSrcSlice[i];
				}
			}
		}
	}

执行时间

GaussSmoothCPU3DBase cost Time(ms) 218.4

VTune分析性能问题

指令执行情况如下：
在这里插入图片描述
其中，为了执行结果稳定，重复调用函数30次。
线程占用率如下：

可以看到线程大部分时间还是在做有用工作的。

计算X Y维度卷积的性能状态：
在这里插入图片描述
整体上没有突出的性能问题。

热点语句是Y维度的FMA运算。

查看反汇编，其中broadcast指令CPI比较高。关于指令的解释如下：
broadcast指令CPI理论值为1。这里抓取的CPI为1.4，略低于理论值。这里执行这个指令的原因是将一维卷积核的一个点展开成一个向量，但是根据反汇编中broadcast指令的执行次数和fmadd是一个数量级的，推断ICC在这里应该是内层循环每次迭代都做了一次broadcast，但显然有更高效的做法：只将卷积核展开一次，并保存在寄存器中复用，效率会更高。
计算Z维度卷积的执行状态：
在这里插入图片描述
整体上内存访问为主要的性能问题。

在Z维度FMA运算时CPI最高。

查看反汇编指令，其中加载内存与broadcast指令CPI高。
计算X Y维度和计算Z维度过程类似，为什么CPI差距会这么大呢？在内存访问上，XY维度的计算每次迭代，所有内存读写操作都2 * 432 * 432 的内存块内进行；Z维度的计算每次迭代，内存读写跨度在332 * 432 *432 ，因此造成内存访问成为性能瓶颈。由Z维度计算的逻辑设计所限制，每次迭代必须要访问这么多的内存数据，因此目前针对内存访问的问题，还没找到很好的解决方案。