【论文阅读】SalsaNet+SalsaNext

SalsaNet和SalsaNext是语义分割网络里面的两个基于encoder和decoder的网络,其中SalsaNext是在SalsaNet的基础上的改进,下面简单记录一下这两个网络。

SalsaNet

这个网络是基于encoder-decoder结构设计出来的,首先考虑到网络的输入,由于3D点云数据存在的复杂性以及无结构性,论文首先进行了一个数据处理的过程,这部分使用了现成的两个网络:MultiNet和Mask R-CNN,这两个网络都是对二维图像进行处理的,也就是利用相机的图像,将车道和车辆提取出来,之后利用相机和雷达的联合,将道路和车辆在点云数据中标记出来,相当于简化了网络的分类任务。

在此基础上,论文尝试对比了两类图像作为输入的效果,即鸟瞰图(BEV)和前景图(SFV)的效果,这两个图都是在标记过后的3D点云上做的转换,对于鸟瞰图,划定一个兴趣域(range of interest),在转换鸟瞰图的情况下这个范围的大小是车辆行驶方向50米长,垂直车辆行驶方向18米宽,其中一侧窄一侧宽,窄的一侧对应人行道,划定这个范围后,转换为鸟瞰图,相当于建立一个2d点与3d点之间的对应关系,之后,再对鸟瞰图做网格化,划定网格的规模为256×64,之后对每个网格,分别统计其中点在原来点云中的平均高度、最高高度、平均反射率以及投影点数目,相当于构成了一个四通道的输入。
与之相对,前景图SFV则是利用偏振角和天顶角进行转换,建立uv组成的坐标系,公式如下:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
△φ△Θ可以理解为转换后图像的分辨率,转换为前视图之后,对兴趣域内的点进行编码,这次兴趣域换位了90°范围内的点,需要编码的内容包括3d坐标系下的坐标、强度值i、范围r以及一个用于表示是否被占用的掩码,相当于变成了6通道的输入。
在这里插入图片描述
经过论文的验证,采用四通道的鸟瞰图的效果会更好一些,所以后续使用的都是鸟瞰图。

经过上面的预处理,现在3d点云以四通道鸟瞰图的形式作为网络的输入,网络本身是用encoder-decoder的结构来构建的,在encoder部分,使用的是残差块ResNet,并且除了最后一个残差块,每个残差块后都跟着一个dropout和池化组成的子模块,其中池化采用的是2×2大小的最大池化,经过四次的子模块,将feature map的大小缩小一共16倍,与此同时通道数目也增加64倍,以此完成encoder的部分,之后再通过decoder的部分,其中使用转置卷积的方法来进行上采样,经过四层,恢复到原来的大小之后,接一个1×1卷积的层,最后送入soft-max层完成分类任务。

其中,转置卷积是一种上采样的方法,并不仅仅是一个转置的操作,具体细节看下面链接:
https://blog.csdn.net/qq_37541097/article/details/120709865

在这里插入图片描述
除此之外,论文还考虑了数据集类型不平衡对网络性能的影响,如果按照一般的网络进行训练,对这种类别的判断会产生不好的影响,因此论文修改了损失函数的写法,引入了一个权值的项,以此保证出现少的类别也能够有足够的影响力。
在这里插入图片描述
总的来说,salsanet是以encoder和decoder为基础的语义分割网络,其对比了四通道BEV图和五通道SFV图作为网络的效果,最后选择了四通道鸟瞰图作为网络的输入,将兴趣域(region-of-interest)中原始的3D点云信息通过投影,转换为二维图像并进行网格化,之后利用转换后的点与点之间的对应关系,将网格内点的平均高度、最高高度、平均反射率(average reflectivity)以及投影点数目分别编码为四通道的图像,以此作为网络的输入。网络结构方面,salsanet使用encoder-decoder结构,利用多个残差块(ResNet block),并结合dropout和最大池化,将维度升高到256维,之后再通过转制卷积,将维度降到32维,最后使用1×1卷积进行整合,通过soft-max得到分类结果。除此之外,考虑到数据集类别的不平衡对网络性能的影响,salsanet在损失函数中增加了权值项,以此来修正类别不均匀造成的影响。

SalsaNext

SalsaNext是在SalsaNet的基础上进行的改进和补充。

首先,从网络的输入来看,SalsaNet使用了四通道的鸟瞰图作为输入,而在SalsaNext中,输入换为了RV图,通过将无结构的3D点云进行球面投影生成RV图来作为卷积的输入,二者之间的转换关系如下:
在这里插入图片描述
关于RV图可以参考这个链接:
https://blog.csdn.net/Yong_Qi2015/article/details/120574317

转换之后,输入在原来的三通道之上,增加了RV图的两个通道,因此输入变成了五通道。

在网络的结构上,整个网络并没有太大的改动,依然是使用encoder-decoder的结构,但是在一些细节上做出了改变。
首先,论文考虑到上下文信息对训练的影响,所以增加了一个上下文模块,放在了encoder之前,相当于在原数据上又做了改进,利用残差空洞卷积来获得更大范围的感受野,从而得到更加全面的上下文信息。
关于空洞卷积与感受野等内容,可以参考下面的连接:
感受野与有效感受野:https://blog.csdn.net/weixin_41882359/article/details/107369648
空洞卷积:https://baijiahao.baidu.com/s?id=1668937247227017442&wfr=spider&for=pc
上下文信息:https://www.zhihu.com/question/296062934?ivk_sa=1024320u

其次,感受野增大会增加参数的规模,也就是让训练开销更大,所以SalasNext在encoder里面增加了空洞卷积的部分,实现了感受野的增大,与此同时还引入了连接操作和1×1卷积,从而能够让网络挖掘到更多感受野中的信息。

此外,SalsaNet在decoder的部分使用的是转置卷积,但是转置卷积在参数量较大的情况下计算的时间开销很大,为了解决这个问题,SalsaNext使用了一个像素拖拽层,简单来说就是把不同通道上的像素拖到另一个通道上,相当于将像素重新处理,起到一个上采样的作用。
在这里插入图片描述
除了上面这些改动,在网络结构这方面,SalsaNext还在encoder和decoder之间加了dropout层来增加网络的表现,还将SalsaNet中的最大池化换位了平均池化。在一些卷积之后,SalsaNext还使用了batch normalization做标准化处理,关于batch normalization可以参考这两个链接:
https://zhuanlan.zhihu.com/p/54073204
https://blog.csdn.net/hffhjh111/article/details/86994445
在这里插入图片描述

另外一个很重要的改动,就是SalsaNext将一个静态的模型改为了动态的模型,原来的SalsaNet本质上是一个静态的模型,一旦训练结束后,权重实际上就是一个固定的内容,并不会因为数据的变化而产生变化。但是考虑到数据和模型存在的不确定性,SalsaNext将网络换为了贝叶斯网络,将权重换为了一个分布。不确定性分为认知不确定性和随机不确定性,认知不确定性可以通过增加数据量来弥补,而随机不确定性只能减小而不能消除。
不确定性参考链接:
https://blog.csdn.net/zhaoyin214/article/details/90231491
贝叶斯神经网络参考链接:
https://blog.csdn.net/dhaiuda/article/details/106383465
https://www.zhihu.com/question/352295592
http://t.zoukankan.com/wuliytTaotao-p-10281766.html
https://baijiahao.baidu.com/s?id=1698906817577942018&wfr=spider&for=pc
https://zhuanlan.zhihu.com/p/268725084

最后,SalsaNext也对不充分的类别做了修正,也采用了SalsaNet中的增加权重的方法,只不过由于换用了贝叶斯神经网络,所以写法上有一些变化:
在这里插入图片描述

总之,salsanext 在salsanet的基础上做了改进,首先针对于全局上下文信息不足的问题,论文提出了上下文模块(context module),该模块通过在网络输入之前增加空洞卷积的方法,获得了更大的感受野,从而获得了更加全面的上下文信息。其次,对于增大的感受野,训练网络的过程势必会出现参数过多的问题,从而增加训练的开销,针对这一点,论文修改了SalsaNet中encoder部分,通过增加感受野以及concatenate等操作,在保证训练开销的情况下获得了更加丰富的信息。在decoder的部分,SalsaNet使用了转置卷积的方法,该方法的时间开销较大,针对这一点,SalsaNext将这一部分修改为像素拖拽层(pixel shuffle),通过跨通道的像素移动,一方面起到了decoder的作用,同时还优化了时间的开销。最后,针对于3D点云数据中存在的一些不确定因素,比如远点或者边界的类别判定问题,SalsaNext将原本静态的神经网络转换为动态的贝叶斯神经网络,通过将权值变为概率分布,使得模型对于数据和模型的不确定性变得更加鲁棒。

  • 7
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
A: 下面是一个常见的 LaTeX 论文阅读报告模板,您可以根据需要进行修改: \documentclass[12pt]{article} \usepackage[utf8]{inputenc} \usepackage{amsmath} \usepackage{amsfonts} \usepackage{amssymb} \usepackage{graphicx} \usepackage{float} \usepackage{hyperref} \usepackage{listings} \title{阅读报告} \author{作者名字} \date{} \begin{document} \maketitle \section{论文概述} 在这一部分中,您需要介绍一下要报告的论文。具体来说,您需要提供以下信息: \begin{itemize} \item 论文的标题和作者; \item 论文发表的会议或期刊; \item 论文研究的问题和主要贡献; \item 论文使用的方法和实验设计等。 \end{itemize} \section{研究问题} 在这一部分中,您需要介绍论文中所涉及的研究问题,并说明该问题的重要性。您需要回答以下问题: \begin{itemize} \item 论文研究的问题是什么? \item 该问题在相关领域中的位置和历史背景是什么? \item 为什么该问题很重要?它解决了什么实际问题,或者对研究有什么重要的贡献? \end{itemize} \section{主要贡献} 在这一部分中,您需要介绍论文所提出的主要贡献。具体来说,您需要回答以下问题: \begin{itemize} \item 该论文提出了什么新方法或新技术? \item 该方法或技术相对于现有方法和技术有什么优势? \item 该方法或技术在实验中的表现如何?它是否能够解决研究问题? \end{itemize} \section{方法和实验设计} 在这一部分中,您需要介绍论文使用的方法和实验设计。您需要回答以下问题: \begin{itemize} \item 该论文使用了哪些方法和技术? \item 这些方法和技术对解决研究问题有什么帮助? \item 该论文进行了什么样的实验设计?实验结果如何? \end{itemize} \section{评价和讨论} 在这一部分中,您需要评价论文的内容,并提出自己的批评和建议。您需要回答以下问题: \begin{itemize} \item 您认为该论文的论点和论据是否充分?有哪些不足之处? \item 该论文是否有进一步的研究方向和改进空间? \item 您是否有其他的评价和建议? \end{itemize} \section{结论} 在这一部分中,您需要总结整个阅读报告,并得出自己的结论。您需要回答以下问题: \begin{itemize} \item 该论文的主要研究问题是什么? \item 该论文的主要贡献是什么? \item 您对该论文的评价和建议是什么? \end{itemize} \end{document}

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Ayakanoinu

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值