【论文阅读】SalsaNet+SalsaNext

Ayakanoinu

已于 2022-08-09 12:40:22 修改

阅读量3.2k

点赞数 7

分类专栏：语义分割文章标签：计算机视觉深度学习自动驾驶

于 2022-06-14 20:19:05 首次发布

本文链接：https://blog.csdn.net/weixin_43849505/article/details/125282691

版权

语义分割专栏收录该内容

4 篇文章 3 订阅

订阅专栏

SalsaNet和SalsaNext是语义分割网络里面的两个基于encoder和decoder的网络，其中SalsaNext是在SalsaNet的基础上的改进，下面简单记录一下这两个网络。

SalsaNet

这个网络是基于encoder-decoder结构设计出来的，首先考虑到网络的输入，由于3D点云数据存在的复杂性以及无结构性，论文首先进行了一个数据处理的过程，这部分使用了现成的两个网络：MultiNet和Mask R-CNN，这两个网络都是对二维图像进行处理的，也就是利用相机的图像，将车道和车辆提取出来，之后利用相机和雷达的联合，将道路和车辆在点云数据中标记出来，相当于简化了网络的分类任务。

在此基础上，论文尝试对比了两类图像作为输入的效果，即鸟瞰图（BEV）和前景图（SFV）的效果，这两个图都是在标记过后的3D点云上做的转换，对于鸟瞰图，划定一个兴趣域（range of interest），在转换鸟瞰图的情况下这个范围的大小是车辆行驶方向50米长，垂直车辆行驶方向18米宽，其中一侧窄一侧宽，窄的一侧对应人行道，划定这个范围后，转换为鸟瞰图，相当于建立一个2d点与3d点之间的对应关系，之后，再对鸟瞰图做网格化，划定网格的规模为256×64，之后对每个网格，分别统计其中点在原来点云中的平均高度、最高高度、平均反射率以及投影点数目，相当于构成了一个四通道的输入。
与之相对，前景图SFV则是利用偏振角和天顶角进行转换，建立uv组成的坐标系，公式如下：
在这里插入图片描述

△φ△Θ可以理解为转换后图像的分辨率，转换为前视图之后，对兴趣域内的点进行编码，这次兴趣域换位了90°范围内的点，需要编码的内容包括3d坐标系下的坐标、强度值i、范围r以及一个用于表示是否被占用的掩码，相当于变成了6通道的输入。
在这里插入图片描述
经过论文的验证，采用四通道的鸟瞰图的效果会更好一些，所以后续使用的都是鸟瞰图。

经过上面的预处理，现在3d点云以四通道鸟瞰图的形式作为网络的输入，网络本身是用encoder-decoder的结构来构建的，在encoder部分，使用的是残差块ResNet，并且除了最后一个残差块，每个残差块后都跟着一个dropout和池化组成的子模块，其中池化采用的是2×2大小的最大池化，经过四次的子模块，将feature map的大小缩小一共16倍，与此同时通道数目也增加64倍，以此完成encoder的部分，之后再通过decoder的部分，其中使用转置卷积的方法来进行上采样，经过四层，恢复到原来的大小之后，接一个1×1卷积的层，最后送入soft-max层完成分类任务。

其中，转置卷积是一种上采样的方法，并不仅仅是一个转置的操作，具体细节看下面链接：
https://blog.csdn.net/qq_37541097/article/details/120709865

在这里插入图片描述
除此之外，论文还考虑了数据集类型不平衡对网络性能的影响，如果按照一般的网络进行训练，对这种类别的判断会产生不好的影响，因此论文修改了损失函数的写法，引入了一个权值的项，以此保证出现少的类别也能够有足够的影响力。
在这里插入图片描述
总的来说，salsanet是以encoder和decoder为基础的语义分割网络，其对比了四通道BEV图和五通道SFV图作为网络的效果，最后选择了四通道鸟瞰图作为网络的输入，将兴趣域（region-of-interest）中原始的3D点云信息通过投影，转换为二维图像并进行网格化，之后利用转换后的点与点之间的对应关系，将网格内点的平均高度、最高高度、平均反射率（average reflectivity）以及投影点数目分别编码为四通道的图像，以此作为网络的输入。网络结构方面，salsanet使用encoder-decoder结构，利用多个残差块（ResNet block），并结合dropout和最大池化，将维度升高到256维，之后再通过转制卷积，将维度降到32维，最后使用1×1卷积进行整合，通过soft-max得到分类结果。除此之外，考虑到数据集类别的不平衡对网络性能的影响，salsanet在损失函数中增加了权值项，以此来修正类别不均匀造成的影响。

SalsaNext

SalsaNext是在SalsaNet的基础上进行的改进和补充。

首先，从网络的输入来看，SalsaNet使用了四通道的鸟瞰图作为输入，而在SalsaNext中，输入换为了RV图，通过将无结构的3D点云进行球面投影生成RV图来作为卷积的输入，二者之间的转换关系如下：
在这里插入图片描述
关于RV图可以参考这个链接：
https://blog.csdn.net/Yong_Qi2015/article/details/120574317

转换之后，输入在原来的三通道之上，增加了RV图的两个通道，因此输入变成了五通道。

在网络的结构上，整个网络并没有太大的改动，依然是使用encoder-decoder的结构，但是在一些细节上做出了改变。
首先，论文考虑到上下文信息对训练的影响，所以增加了一个上下文模块，放在了encoder之前，相当于在原数据上又做了改进，利用残差空洞卷积来获得更大范围的感受野，从而得到更加全面的上下文信息。
关于空洞卷积与感受野等内容，可以参考下面的连接：
感受野与有效感受野：https://blog.csdn.net/weixin_41882359/article/details/107369648
空洞卷积：https://baijiahao.baidu.com/s?id=1668937247227017442&wfr=spider&for=pc
上下文信息：https://www.zhihu.com/question/296062934?ivk_sa=1024320u

其次，感受野增大会增加参数的规模，也就是让训练开销更大，所以SalasNext在encoder里面增加了空洞卷积的部分，实现了感受野的增大，与此同时还引入了连接操作和1×1卷积，从而能够让网络挖掘到更多感受野中的信息。

此外，SalsaNet在decoder的部分使用的是转置卷积，但是转置卷积在参数量较大的情况下计算的时间开销很大，为了解决这个问题，SalsaNext使用了一个像素拖拽层，简单来说就是把不同通道上的像素拖到另一个通道上，相当于将像素重新处理，起到一个上采样的作用。
在这里插入图片描述
除了上面这些改动，在网络结构这方面，SalsaNext还在encoder和decoder之间加了dropout层来增加网络的表现，还将SalsaNet中的最大池化换位了平均池化。在一些卷积之后，SalsaNext还使用了batch normalization做标准化处理，关于batch normalization可以参考这两个链接：
https://zhuanlan.zhihu.com/p/54073204
https://blog.csdn.net/hffhjh111/article/details/86994445
在这里插入图片描述

另外一个很重要的改动，就是SalsaNext将一个静态的模型改为了动态的模型，原来的SalsaNet本质上是一个静态的模型，一旦训练结束后，权重实际上就是一个固定的内容，并不会因为数据的变化而产生变化。但是考虑到数据和模型存在的不确定性，SalsaNext将网络换为了贝叶斯网络，将权重换为了一个分布。不确定性分为认知不确定性和随机不确定性，认知不确定性可以通过增加数据量来弥补，而随机不确定性只能减小而不能消除。
不确定性参考链接：
https://blog.csdn.net/zhaoyin214/article/details/90231491
贝叶斯神经网络参考链接：
https://blog.csdn.net/dhaiuda/article/details/106383465
https://www.zhihu.com/question/352295592
http://t.zoukankan.com/wuliytTaotao-p-10281766.html
https://baijiahao.baidu.com/s?id=1698906817577942018&wfr=spider&for=pc
https://zhuanlan.zhihu.com/p/268725084

最后，SalsaNext也对不充分的类别做了修正，也采用了SalsaNet中的增加权重的方法，只不过由于换用了贝叶斯神经网络，所以写法上有一些变化：
在这里插入图片描述

总之，salsanext 在salsanet的基础上做了改进，首先针对于全局上下文信息不足的问题，论文提出了上下文模块（context module），该模块通过在网络输入之前增加空洞卷积的方法，获得了更大的感受野，从而获得了更加全面的上下文信息。其次，对于增大的感受野，训练网络的过程势必会出现参数过多的问题，从而增加训练的开销，针对这一点，论文修改了SalsaNet中encoder部分，通过增加感受野以及concatenate等操作，在保证训练开销的情况下获得了更加丰富的信息。在decoder的部分，SalsaNet使用了转置卷积的方法，该方法的时间开销较大，针对这一点，SalsaNext将这一部分修改为像素拖拽层（pixel shuffle），通过跨通道的像素移动，一方面起到了decoder的作用，同时还优化了时间的开销。最后，针对于3D点云数据中存在的一些不确定因素，比如远点或者边界的类别判定问题，SalsaNext将原本静态的神经网络转换为动态的贝叶斯神经网络，通过将权值变为概率分布，使得模型对于数据和模型的不确定性变得更加鲁棒。