【计算机视觉】简述对Dilated Nearest-Neighbor Encoding（针对点云分割的扩张搜索编码）的理解

最新推荐文章于 2023-05-13 16:45:09 发布

面向发疯编程@Lyx

最新推荐文章于 2023-05-13 16:45:09 发布

阅读量2.7k

点赞数 1

文章标签：计算机视觉深度学习

本文链接：https://blog.csdn.net/weixin_48845174/article/details/123840344

版权

大场景点云分割算法基本都是去提取邻域特征，添加注意力模块等对其实现更好的分割结果，但是点云经过下采样之后还是会丢失一部分特征信息，所以针对上下文信息进行多级多尺度融合的效果去学习点云分割目前看起来很不错，DNNE这篇文章，是在RandLA-Net的基础之上进行改进的，它在KNN搜索邻域的时候，搜索的是2K的点，意思就是直接对感受野扩大了一倍，搜索2K点，但是学习的时候只是提取K个点，所以它减少了学习复杂度的基础上还扩大了网络的感受野。DNEE的网络框架主要是4个编码层和4个解码层，下采样层主要是RS+DLFA模块，上采样层是利用的近邻插值和MHFF模块。
在这里插入图片描述
对于DLFA模块，其实就是RandLA-Net的LFA模块，主要分为三个模块，就是学习邻域的局部特征并且利用自注意力池进行聚合特征，扩张局部编码模块对于搜索邻域点的个数由K个变为了2K个，但是又利用RS采样为K个，扩大了网络的感受野，其实它对学习邻域特征的输入（pi+pik+（pi-pik）+||pi-pik||）都没有变，和RandLA一样，最终学习到邻域局部特征和全局特征的一个拼接特征。
在这里插入图片描述

注意力池化模块，其实和大部分的大场景点云分割网络类似，都是利用上述编码得到的拼接特征进行一个自注意力的学习，对融合的特征进行聚合，这个模块，在空间上还可以解决点云的无序性的问题，现在很多网络都利用此模块去代替max pooling等对称函数，本人觉得加上自注意力可以对特征进一步的学习，有利用点云的分割。
在这里插入图片描述
针对很多网络，现在都在提取完（聚合）点云的特征之后，加上原始点云的特征，去防止学习到一个过多参数的问题，防止过度拟合，因为前面提取的都是局部的特征，这里加上一个全局特征融合，可以优化算法，详细的内容以及结构可以看之前发的博客或者看RESNet这个网络。
在这里插入图片描述
DNEE与RandLA不同的地方是RandLA只是提取完特征之后，在编码层和解码层进行了简单的同尺度和同维度的跳跃连接，而DNEE在此基础上对编码层和解码层进行拼接的时候，实现一个多级别的拼接，不只是简单的同尺度和同维度的跳跃拼接，而是跨尺度的特征融合，这样做的目的可以防止（减少）下采样和上采样丢失的一些特征。其实，这篇文章的最大的创新点应该就是扩张KNN搜索，在搜索邻域方面就提升了网络的一个感受野，像多尺度融合，之前的那篇博客MSAA就有做这个任务。
在这里插入图片描述
它的实验是在Semantic3DIS室内数据集上做的，但是我感觉室内和室外场景分割其实差不了多少，差的可能就是一些物体的尺寸，但是使用网络的结构，提取特征的方法基本都是类似的，它本文没有去做消融实验，我感觉消融实验的结果应该和RandLA类似，毕竟是在那个的基础上改进的，所以可以参考那个消融实验。
在这里插入图片描述
因为这篇文章是IEEE上的，所以可能下载的时候出现没有权限的问题，有需要的话，评论区可以提一下，我发那个具体的网址，这里粘贴一下IEEE的下载网址：https://ieeexplore.ieee.org/abstract/document/9517340