计划写一个优化3D高斯核卷积计算的系列博客。3D高斯核卷积计算的需求来自于公司配准算法需求,与Intel联合举办的性能优化竞赛,这里展示题目信息。
题目
题目三3D卷积(相关)操作 (20分)
【场景和性能问题描述】
背景:在图像处理中,卷积(滤波)是一个基本、常用的操作,很多图像处理方法都要用到,但是卷积是非常耗时的操作,尤其是在卷积核比较大、图像比较大(3D)的情况。当前XXX配准35%时间用在高斯卷积上,所以对它进行性能研究有实际价值。
题目:对一个432 * 432 * 457的图像做3D高斯卷积,卷积核大小为31 * 31 * 31。
【要求】
1.不限GPU、CPU。不能调用直接的库函数一步搞定,需要提供设计思路。
2.CPU类方法需要首先使用Intel性能评估工具,找到性能瓶颈,设计优化方案。
3.对于最终代码,也需使用此工具,评估性能。
【评分标准】
1.结果可复现,正确,显存/内存占用不能超过体数据的3倍,平均时间不得超过1s。
2.GPU类方法不考虑原始数据分配及传输到显存时间
3.为平衡GPU硬件优势,CPU类方法计时基础上减 500ms
4.CPU类方法需要使用Intel性能评估工具,评估性能
友情提示:既然是算法优化,首先从算法优化着手,直接硬件加速不一定取得最优结果