论文笔记——Dilated Residual Networks(DRN)

最新推荐文章于 2024-03-14 04:37:53 发布

BlackBack_

最新推荐文章于 2024-03-14 04:37:53 发布

阅读量1k

点赞数 1

分类专栏：论文笔记系列文章标签：深度学习计算机视觉人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/you2336/article/details/109085150

版权

论文笔记系列专栏收录该内容

18 篇文章 1 订阅

订阅专栏

在这里插入图片描述

论文下载：

https://arxiv.org/pdf/1705.09914.pdf

论文代码：

http://vladlen.info/publications/dilated-residual-networks/

论文摘要：

用于图像分类的卷积网络会逐渐降低图像的分辨率，图像以微小的特征图表现出来，其中原图像场景的空间结构不再可见。这些问题可以通过设置空洞卷积参数(dilation)来缓解，空洞卷积提高了输出特征图的分辨率，而不降低单个卷积核的感受野。

作者表明，在不增加模型深度或复杂性的情况下，扩张型残差神经网络(DRNs)在图像分类方面的表现优于非扩张型残差神经网络。作者提到，进行空洞卷积时，会出现“人为设置网格的现象”(gridding artifacts)。

作者开发了一种去除这些现象的方法，并且将进一步提高DRNs的性能。DRNs在目标定位和语义分割等下游应用中的准确性优势被进一步放大。

空洞卷积：

正常3×3卷积核的卷积过程(stride=2，padding=1)，其中卷积核感受野是9个单元，都是相邻紧靠的，成九宫格形状：

在这里插入图片描述

空洞3×3卷积核的卷积过程(stride=1，padding=0，dilation=2)，其中dilation>1时，便形成空洞卷积，相邻上下左右的两个单元相隔一个单元：
在这里插入图片描述

DRNs构建过程：

作者基于一组ResNet网络架构进行构建DRNs，每个架构都由五组卷积层组成，每组的第一层通过跨步进行下行采样。

在这里插入图片描述

用g表示每一层的组，f表示卷积核，p表示特征图，i表示层数：
在这里插入图片描述

作者主要关注于第四组(g4)和第五组(g5)，用dilation=2的卷积代替原来的卷积：
在这里插入图片描述

在第五组中(Group5，g5)，第二层(i=>2)开始的变化都和第一层一样：
在这里插入图片描述

第五组(g5)中后面的层连接两个已被消除的跨层。跨步的消除使它们每个维度的感受野减少了4倍，所以它们的dilation=4：

在这里插入图片描述

DRNs模块：

最后一组(g5)的最后一层后经过一个全局平均池化层（Global Average Pooling），一个全卷积层得到分类的输出：

在这里插入图片描述

如果想用于分割或者定位，则可以把全局平均池化层（Global Average Pooling）改为其他模块，其中K是1×1卷积：
在这里插入图片描述

Degridding现象：

假设原图像只有一个像素(下图白色块)，经过空洞卷积后特征图出现了离散的九个像素(白色块)：

在这里插入图片描述

翻译为“网络伪影”( gridding artifacts)，造成的影响是得到的特征图会较为粗糙，呈现细碎的点状分布，结果不够精致：
在这里插入图片描述

ResNet中，在第一个7×7的卷积后有一个max pooling，作者发现这个max pooling会导致输出高频高幅值的激活值，这些高幅值的激活就很容易被后面的卷积传播下去，最后在顶层的空洞卷积处形成网格状激活，因此作者使用卷积来代替池化(Removing max pooling)

处理后的为DRN-B-26，特征图看起来也比较平滑了：

在这里插入图片描述

作者还在网络的末尾加卷积层，这些卷积层的dilation要比前面g4和g5的小，比如加入一层dilation=2的卷积层与一层正常的卷积层(Adding layers)。

最后作者把最后两层的残差连接去掉，因为残差连接会把底层的网络伪影特征直接传到顶层(Removing resdual connections)。

DRN网络最终结构：

在这里插入图片描述

（a）DRN-A是ResNet加dilation得到的。

（b） DRN-BDRN-B是DRN-A去除max pooling加入后两层得到的。

（c）DRN-CDRN-C是DRN-B最后两层去掉残差连接得到的。

实验结果：

ResNet-18及相应DRNs的激活图：

在这里插入图片描述

训练好的DRN-C-26内部的特征图：

在这里插入图片描述

ImageNet 2012验证集上的图像分类准确率(错误率)，越低越好：
在这里插入图片描述

ImageNet验证集上弱监督对象定位错误率，越低越好：
在这里插入图片描述

城市景观验证集上扩张剩余网络的性能，越高越好：

在这里插入图片描述

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
2
评论
论文笔记——Dilated Residual Networks(DRN)

论文下载：https://arxiv.org/pdf/1705.09914.pdf论文代码：http://vladlen.info/publications/dilated-residual-networks/论文摘要：用于图像分类的卷积网络会逐渐降低图像的分辨率，图像以微小的特征图表现出来，其中原图像场景的空间结构不再可见。这些问题可以通过设置空洞卷积参数(dilation)来缓解，空洞卷积提高了输出特征图的分辨率，而不降低单个卷积核的感受野。作者表明，在不增加模型深度或复杂性的..
复制链接

扫一扫

专栏目录

BlackBack_ CSDN认证博客专家 CSDN认证企业博客

码龄4年

37: 原创

31万+: 周排名

3万+: 总排名

9万+: 访问

: 等级

1198: 积分

142: 粉丝

235: 获赞

95: 评论

926: 收藏

私信

关注

热门文章

分类专栏

最新评论

用python+opencv实现视频抽帧
墨先森291: 我也是,没有输出，不是中文路径的原因
用python+opencv实现视频抽帧
BlackBack_: 好的谢谢提醒，这篇博客是入门的时候写的，所以有点纰漏
用python+opencv实现视频抽帧
BlackBack_: 好的谢谢提醒，这篇博客是入门的时候写的，所以有点纰漏
用python+opencv实现视频抽帧
BlackBack_: 好的谢谢提醒，这篇博客是入门的时候写的，所以有点纰漏
Deconstructing Denoising Diffusion Models for Self-Supervised Learning
BlackBack_: 伙伴们，这样子细读一篇论文耗费时间还是很多的，虽然我也可以精读，但是那么好的文章不详细做点笔记又浪费了，以后凯明大佬的文章我可能周更，其他论文可能更的快“亿”点哈哈

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。