基础知识补全：SWIPENET: Object detection in noisy underwater scenes

hhhwuhu

已于 2023-03-11 15:01:05 修改

阅读量279

点赞数 1

文章标签：目标检测深度学习计算机视觉

于 2023-03-10 11:14:54 首次发布

本文链接：https://blog.csdn.net/weixin_52696817/article/details/129436793

版权

1.卷积模块

图像的卷积：

在卷积神经网络中通过卷积操作可以提取图片中的特征，低层的卷积层可以提取到图片的一些边缘、线条、角等特征，高层的卷积能够从低层的卷积层中学到更复杂的特征，从而实现到图片的分类和识别。

2.膨胀卷积

感受野：感受野 (Receptive Field)，指神经网络中神经元 “感知到/看到的” 输入区域。在 CNN 中，特征图上某元素的计算受输入图像上某区域的影响，此区域即为该元素的感受野。

在 CNN 中，越深层的神经元看到的输入区域越大 —— 感受野越大，因此，堆叠卷积层是扩大感受野的常用方式。

膨胀卷积：

、

优点： 1.感受野的扩大有助于检测分割大目标，特征图分辨率的保持有利于精确定位目标

2.当设置不同 dilation rate 时，会获取不同大小的感受野，亦即获取了多尺度信息

缺点： 网格效应 (Gridding Effect)

改进： 1. Hybrid Dilated Convolution (HDC)

2. Atrous Spatial Pyramid Pooling (ASPP)

ASPP 在网络 decoder 上采用不同大小的 dilation rate 来提取多尺度信息，各尺度均为一个独立的分支，并在网络最后合并一处，通过一个卷积层输出进行预测。如此有效地避免了在 encoder 上冗余信息的获取，直接关注与物体间与物体内的相关性。

跳跃连接：跳跃连接，会跳跃神经网络中的某些层，并将一层的输出作为下一层的输入。其用于解决梯度消失的问题。

3.去卷积模块（反卷积模块）

1）反卷积也被称为转置卷积，反卷积其实就是卷积的逆过程

实际上通过反卷积操作并不能还原出卷积之前的图片，只能还原出卷积之前图片的尺寸

通过反卷积可以用来可视化卷积的过程

2）激活函数

relu：为了解决梯度消失问题

3）上采样：把低分辨率输入转成高分辨率输出。

4.样本加权

使用新的样本加权检测损失函数，使得提出的网络能够根据样本的权重控制训练样本的影响，在文章中，该算法与提出的新样本加权算法CMA相结合，共同解决水下目标检测的噪声数据的问题。

在损失函数中L中，分为用于边界框分类的样本加权softmax损失 $L{cls}$ 和用于边界框回归的样本加权平滑损失 $L{reg}$ 。

边界框回归：通过一种关系使得输入的窗口经过映射更接近于真实窗口。

公式参数解释：

$\ddot{N}$ :所有训练样本数

$N$ :所有正训练样本数

$\alpha {1}$ : 分类损失的权重

$\alpha {2}$ : 回归损失的权重

$\bar{W}{i}^{m}$ :在CMA中第m次迭代计算的第i个样本权重

$precls_i{}$ : 第i个样本的预测类向量

$gtcls_i{}$ : 第i个样本的真实类向量

$precls_{i}^{c}$ : 第i个样本的预测类的向量是c类

如果第i个样本属于第C类，则 $gtcls_{i}^{c}$ =1，否则为0

$gtcls_{i}^{c}$ : 第i个样本的真实类的向量

$net_{i}^{c}$ : 来自检测网络的分类预测

$preloc_{i}^{}$ : 第i个样本的预测边界框坐标向量（4维）

$gtloc_{i}^{}$ : 第i个样本的真实边界框坐标向量（4维）

坐标信息： $Loc$ =（cx,cy,x,y）

$preloc_{i}^{l}$ : 第i个正训练样本的预测边界框坐标向量（4维）的第l个元素

$gtloc_{i}^{l}$ : 第i个正训练样本的真实边界框坐标向量（4维）的第l个元素

$net_{i}^{l}$ : 来自检测网络的坐标预测

5.CMA

MA: CMA基于MA的基础发展，依次训练多个基分类器，并根据每个分类器的错误率为每一个分类器分配一个权重。当训练每个分类器时，被前一分类器误分类的样本会被分配较高的权重，从而允许后一分类器集中学习这些样本，最后将这些基分类器组合成具有相应权重的集成分类器。

CMA(三个阶段）：

1）噪声消除阶段（NECMA）

在该阶段每次训练迭代中，降低未检测对象的权重，因为可能是噪声数据。样本加权的检测损失使得下一代SWIPENET只关注学习权重高的干净数据。通过逐步减少噪声数据的影响， NECMA阶段的检测器在目标和复杂背景之间产生较小的误差。但在几次迭代之后，深度检测器可能因为过拟合干净、简单的样本（因为在几次加权训练之后，简单样本的权重过高），导致性能不再提高，所以终止NECMA阶段。并且选择最佳检测精度的检测器作为“干净”检测器。“干净”检测器可以很好地检测出容易的对象，但是无法检测一些难样本，因为忽略了对噪声对象的学习。

2) 噪声学习阶段(NLCMA)

在NLCAM 训练阶段，集中通过增加难样本的权重来学习不同的难样本。在CMA从NECMA 变为NLCMA时，即在第M1+1次迭代中，必须将每个对象的权重重新初始化，并在NLCMA每次迭代中，使用“干净”SWIPENET的参数初始化每个检测器的参数，避免局部最优问题和提高泛化能力。

3) 检测器集成阶段

使用贪婪选择算法来选择最终集合的候选检测器

参考资料：(166条消息) 最容易理解的对卷积(convolution)的解释_卷积函数_bitcarmanlee的博客-CSDN博客

(166条消息) 【机器学习】详解扩张/膨胀/空洞卷积 (Dilated / Atrous Convolution)_扩张卷积和空洞卷积_何处闻韶的博客-CSDN博客

(166条消息) 空洞卷积（膨胀卷积）的相关知识以及使用建议（HDC原则）_膨胀卷积和空洞卷积_Le0v1n的博客-CSDN博客关于跳跃连接你需要知道的一切 - 腾讯云开发者社区-腾讯云 (tencent.com)

hhhwuhu

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
基础知识补全：SWIPENET: Object detection in noisy underwater scenes

如此有效地避免了在 encoder 上冗余信息的获取，直接关注与物体间与物体内的相关性。跳跃连接：跳跃连接，会跳跃神经网络中的某些层，并将一层的输出作为下一层的输入。其用于解决梯度消失的问题。
复制链接

扫一扫