基于改进yolov4和unet的飞机目标的分割

最新推荐文章于 2024-08-07 18:26:05 发布

本是后山人～

最新推荐文章于 2024-08-07 18:26:05 发布

阅读量6k

点赞数 11

分类专栏：深度学习&数据挖掘文章标签：深度学习神经网络

本文链接：https://blog.csdn.net/weixin_47505584/article/details/120468185

版权

一篇之前写的分割图片中小飞机目标的论文，思路较简单，先用yolo目标检测框架提取出ROI再用Unet进行分割，最后融合。

摘要：航拍影像中飞机目标占图像比例往往较低，为了解决语义分割中对飞机目标分割存在效果差，准确性低的问题，提出一种基于改进的yolov4和unet结合的小目标分割方法。为了提高yolov4的训练速度，降低模型复杂度，使用mobilenet对yolov4主干网络进行改进，使用改进后的模型提取出图像中ROI区域，再将该区域送入vgg16-unet进行分割，最后将分割出的各个子目标和原图像进行融合，得到完整的分割图。采用RSOD-Dataset作为训练数据集，使用UCAS-AOD数据集验证模型泛化能力，实验表明，该模型对图像中飞机目标有良好的分割效果。

关键字：Yolov4，unet，mobilenet

引言：近年来随着深度神经网络在目标检测，分割，分类等方向的成功应用，展示出其提取特征的强大能力。和分类，检测等任务不同的是，语义分割在于实现从像素到像素的映射，将图像逐像素进行分类，从而将需要识别的物体与背景分割开来，在医学图像，无人驾驶等方向有广泛应用。语义分割分包括监督分割、无监督分割、半监督分割等。在深度神经网络兴起之前，一般使用像素级的决策树分类来设计分割分类器，例如TextonForest和Random Forest。在2014年，加州大学伯克利分校的Long等推广了原有CNN结构，首先使用FCN对图像进行端到端的分割，并去掉了全连接层，实现了对像素的密集分类，使语义分割技术取得重大突破，后续提出的语义分割模型绝大部分均基于该结构。另一方面，使用FCN虽然能较好的提取特征并增加感受野，但丢失了像素的位置信息，忽视了像素间的关系，分割精度和空间一致性较差。

为了改进FCN存在的以上问题，pspnet融合了金字塔模块来聚合图片信息，segnet改进了解码过程中上采样的方式，unet在多尺度上提取特征，并通过拼接而不是相加的方式进行特征融合，DeepLab融合了空洞卷积与条件随机场，以及空间金字塔池化模块（ASPP）。这些模型通过融合上下文包含的语义信息，多尺度特征提取等方式达到了优秀的分割效果。也促进了图像分割在地物目标分割中的应用。为了解决对飞机目标进行语义分割时存在分割不准确，精度低的问题，本文采用改进的yolov4模型和unet相结合的方式，将端到端的深度学习方法应用到较小飞机目标检测中，在提高模型速度和降低复杂度的同时，较好的提高分割准确度。

改进的Yolov4框架和unet结合的分割算法设计

本文算法主要涉及到三个模块，分别是改进后的yolov4模块，vgg16-unet模块，以及图像融合模块。改进后的yolov4模块负责检测出原始图像中目标的位置，将其标记为ROI区域，剪裁出ROI区域的图像作为下一步vgg16-unet模块的输入，此时的ROI区域图像和原始图像相比尺寸大幅减少，并且目标物占整个图像的比例大幅提高，有利于进行进一步处理。由于原始图像中往往包含多个目标物，故每张图片会产生多个ROI区域图像，得到这些图像后分别送入vgg16-unet模型进行分割，由于该问题实际为图像像素的二分类问题，所以输出黑白二值图像作为分割结果，最后将所有分割好的ROI区域图像和原始图像送入图像融合模块进行融合，得到最终的分割结果。

传统YoloV4的整个结构包含三个部分。分别是主干特征提取网络（CSPdarknet53），用于获得三个初步有效特征层，加强特征提取网络（SPP和PANet）用于对三个初步有效特征层进行融合，得到三个更有效的特征层，预测网络（YoloHead）利用得到的特征进行预测。Mobilenet是谷歌提出的轻量级神经网络，其主要特点是使用了深度可分离卷积层。

为了减少模型复杂度，本文使用mobilenet网络替换yolov4原有的darknet53主干网络进行初步有效特征层的提取，使用mobilenet网络中提取到的三个特征层，替换darknet53输出的原有的三个特征层，替换后的网络参数量如下：