论文笔记：用于语义分割的全卷积网络（fully convolutional networks for semantic segmentation）

最新推荐文章于 2025-01-12 15:46:28 发布

原创

最新推荐文章于 2025-01-12 15:46:28 发布 · 1.2k 阅读

·

24

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#论文阅读 #网络

介绍

通常CNN网络在卷积层之后会接上若干个全连接层，将卷积层产生的特征图（feature map）映射成一个固定长度的特征向量，以AlexNet为代表的经典CNN结构适合图像级的分类和回归任务，因为最后得到整幅图像的的数值描述，比如AlexNet的ImageNet模型输出一个1000维的向量表示输入图像属于每一类的概率(softmax归一化)。
例子：AlexNet网中输入是下图中猫的图片，输出的结果是一个向量，表示输入图像属于每一类的概率，其中“tabby cat”这一统计概率最高。

而在本文中建立了一种可以接受任意大小图像，并输出与输入等大小的图像的全卷积神经网络，在文章中作者定义了全卷积神经网络（FCN）的空间结构，解释了FCN在空间密集型预测任务上的应用并且给出了他与之前其他网络之间的联系，之后通过迁移学习的方法进行微调（finetune），以此来完成所需要的分割任务。此外作者还定义了跳跃结构，通过结合来自于深的、粗糙层的语义信息和来自浅、细层的表征信息来产生准确和精细的分割。

相关工作

卷积网络在识别领域前进势头很猛，卷积网不仅在全图式的分类上有所提高，在结构化输出的局部任务上也取得了进步。包括检测目标边框、关键点预测和局部通信的进步。
在以往的分割方法中，主要有两大类缺点：
1. 基于图像块分割的效率低，往往需要前期或后期处理；
2. 语义分割面临在语义和位置的内在张力问题：全局信息解决的是什么。局部信息解决的是在哪里。
为了解决上面这两个问题，本文主要有三个创新点：
1. 将分类网络结果重新解释为全卷积神经网络结构，这里面具体包括两点，一个是全连接层转化为卷积层，还有就是通过反卷积进行上采样。
2. 使用迁移学习的方法进行 finetune ，因为很明显通过第一点可知可以将 VGG 这类有预训练权重的分类网络重新解释为 FCN
3. 使用跳跃结构使得，使得深的粗的语义信息可以结合浅的细的表征信息，产生准确和精细的分割。
以往的方法主要有以下的缺点：
1. 限制容量和感受野的小模型；
2. 分块训练；
3. 超像素投影的预处理，随机场正则化、滤波或局部分类；
4. 对于密集输出采用输入移位和输出交错的方法；
5. 多尺度金字塔处理；
6. 饱和双曲线正切非线性；
7. 集成
- 基于 FCN 的方法没有以上缺点。
- 传统的基于CNN的分割方法：为了对一个像素分类，使用该像素周围的一个图像块作为CNN的输入用于训练和预测。这种方法有几个缺点：一是存储开销很大。例如对每个像素使用的图像块的大小为15x15，然后不断滑动窗口，每次滑动的窗口给CNN进行判别分类，因此则

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

河北王承志 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。