项目实践中对语义分割网络DeepLabV3+的改进

最新推荐文章于 2025-04-18 12:13:34 发布

yuanlulu

最新推荐文章于 2025-04-18 12:13:34 发布

阅读量1.2w

点赞数 16

分类专栏：深度学习论文笔记和实践

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yuanlulu/article/details/90245331

版权

DL/ML/AI 同时被 3 个专栏收录

88 篇文章

订阅专栏

55 篇文章

订阅专栏

44 篇文章

订阅专栏

概述

最近用DeepLabV3+做了一些语义分割的工作，从github上下载了别人实现的tensorflow实现。发现速度不能满足需求，所以本人对DeepLabV3+做了一些改进。

原始的网络结构

下图左侧是DeepLabV3的结构，中间是U-Net风格的编解码结构，最右侧就是DeepLabV3+的结构。和V3相比，V3+融合了一次底层特征图（主干网络也换了，但是这里体现不出来）。

在这里插入图片描述

改进方向

替换backbone

DeepLabV3+论文里的backbone是Xception, 我下到的工程里用的是ResnetV2-50和ResnetV2-101。

整体的模型保存为PB有一百多M, 在CPU上的运行时间是1秒多。

为了加快网络速度，将backbone替换为MobileNetV2。

使用深度分离卷积替换普通卷积

ASPP部分和decoder部分的参数数量同样吓人，为此把所有的普通卷积替换为深度分离卷积。

同时ASPP和decoder部分的通道数量也做了一定的删减。

增加一次对底层特征的融合

在做身份证部件解析的时候发现细节切分效果较差。为了改善细节，将1/2大小的特征图和decoder特征进行融合，最终取得了不错的效果。

在这里插入图片描述

最终效果

整个模型保存为PB固化文件后只有2.5M, 300x400的图片解析时间在CPU上0.2秒左右。

图片效果见《基于语义分割的身份证部件解析和文字检测》

参考资料

DeeplabV3+：Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation

基于语义分割的身份证部件解析和文字检测

这就是神经网络 12：深度学习-语义分割-DeepLabV1、V2、V3和V3+

人脸解析（Face Parsing）和人体解析Human Parsing：方法、数据集和论文

评论 15

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。