【计算机视觉】简述对MSAA（多尺度注意力融合）的理解

最新推荐文章于 2025-03-21 21:46:35 发布

小刘正在努力

最新推荐文章于 2025-03-21 21:46:35 发布

阅读量6.5k

点赞数 2

文章标签：计算机视觉深度学习

本文链接：https://blog.csdn.net/weixin_48845174/article/details/123751740

版权

本文介绍了点云分割领域的最新进展，特别是自PointNet以来的改进算法。重点介绍了一个结合多尺度特征融合、通道注意力和上下文信息的新型分割模型。该模型通过一系列模块提升分割效果，并在CSPCDataset数据集上进行了详细的实验验证。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

对于点云分割而言，自PointNet发布以来，很多算法都意识到了这个算法的问题，可能它首先解决了点云的无序性问题，但是它的网络丢失了很多信息，即分割效果差，没有学习邻域的局部特征，虽然目前很多模型都在此基础之上去学习邻域的局部特征，像经典的RandLA（局部特征学习+自注意力池聚合+扩展残差）就是大场景点云分割中比较早去学习邻域局部特征的，所以它在2020年分割效果还是挺好的。后面很多不管是SemanticKT还是一些其他建筑大场景点云分割算法，都是在此基础之上添加模块，提升分割效果，像DLA（添加自注意力权重self-attention加权特征），LFA（与DLA基本一致，只是对加权的特征和聚合的特征进行了进一步的融合），他们都添加了一些注意力模块来提升分割的效果。MSAA是在学习局部特征基础上学习了不同通道间的注意力，并且它在结合上下文信息并没有简单的进行拼接，而是通过将高级特征压缩为权重加权低级特征然后拼接低级特征之后在与解码层的特征结合。并且它的网络进行了编码层和解码层的多尺度的特征融合，实验效果证明不同尺度电特征融合有利于分割。我认为它下面的整体网络框架应该是画错了，少画了一个LAE模块，这个模块是进行学习特征并且聚合特征模块，应该和RS是一起进行的。
在这里插入图片描述

对于该网络的多尺度融合模块，它是结合了编码层的点的特征信息，编码层信息的输出利用了一个局部特征增强模块，就是利用一个门控开关，将局部特征进行一个double增强，与解码层的不同尺度的信息（经过上采样）进行拼接后通过MLP输出一个32维的特征。
在这里插入图片描述

现在很多局部特征学习的模块基本都是利用的扩展残差网络的结构，就是输入点云进行特征学习，加权特征，聚合特征，然后输出。LAE中LFE是学习领域局部特征和不同通道间相互注意力模块，并且进行自注意池聚合特征，对于领域局部特征RGE部分，它是通过中心点、领域点、相对距离等拼接得到的特征，CAE是不同通道间的注意力模块，它是对输入特征翻转后利用maxpooling取出最大的特征，然后减去输入特征经过softmax获取的权重，然后加权特征，不断的更新输入特征。
在这里插入图片描述
对于结合上下文信息模块，它不像RandLA、DLA等等只是简单的跳跃拼接，它是设计了一注意力跳跃拼接模块，利用注意力对其特征进行选择性的加权，然后与解码层的信息进行拼接，丰富上下文信息特征。

该论文做的实验所用的数据集是CSPC Dataset，它将情景1、3、4设置成训练集，将2、5设置成测试集，它与RandLA在此数据集做了比较，Miou比其高了很多，它还以RandLA为基准，对其进行添加自己的模块，像多尺度融合（一个是解码层的、一个是解码层+编码层（ours））模块、通道注意力模块、注意力拼接模块，消融实验证明了它们的作用都有所提升。
在这里插入图片描述