Aggregated Residual Transformations for Deep Neural Networks(ResNeXt)

BlackBack_

已于 2024-03-18 21:38:39 修改

阅读量439

点赞数

分类专栏：论文笔记系列何凯明论文系列文章标签：人工智能计算机视觉深度学习 1024程序员节何凯明谢赛宁

于 2020-10-24 16:44:24 首次发布

本文链接：https://blog.csdn.net/you2336/article/details/109261886

版权

论文笔记系列同时被 2 个专栏收录

18 篇文章 1 订阅

订阅专栏

何凯明论文系列

8 篇文章 0 订阅

订阅专栏

在这里插入图片描述

论文下载：

https://arxiv.org/pdf/1611.05431.pdf

论文代码：

https://github.com/miraclewkf/ResNeXt-PyTorch

论文摘要：

该论文提出了一个简单、高度模块化的图像分类网络结构。该网络结构是通过重复一个构建块(buildng block)搭建的，这个构建块聚合了一组具有相同拓扑结构(same topology)的转换。这种策略提出了一个新的维度概念，作者称为“基数(cardinality)”，定义为转换维度的大小(the size of the set of transformations)，并且是作为一个除了深度和宽度对神经网络必不可少的因素。

在ImageNet-IK数据集上，实验表明，即使在维持复杂性的限制条件下，增加基数也能够提高分类精度。

增加网络分类能力时，增加基数比增加深度和宽度更有效(increasing cardinality is more effective than going deeper or wider when we increase the capacity)。

作者把该模型命名为“ResNeXt”，该模型也是2016年ILSVRC分类任务的基础，在该任务中获得了第二名。

基数的直观表示：

左为ResNet[14]块，右为基数= 32的ResNeXt块，复杂度大致相同。在个人看来，基数是torch卷积conv2d中的group参数，在数据量上两种方式相近，但是产生的效果不同：

在这里插入图片描述

复杂度比较：

ResNet-50 和 ResNeXt-50 的内部结构比较，最后两行说明二者(The numbers of parameters and FLOPs are similar between these two models)之间的参数复杂度差别不大:

在这里插入图片描述

分组卷积：

在论文的相关工作(Related Work)中，作者提到分组卷积(Grouped convolutions)，分组卷积的思想可追溯到AlexNet论文，但是没有正式命名提出“分组卷积”这个名词。也没有任何数据表明利用分组卷积可以提高精确度，在AlexNet中，这个思想只是在前期硬件限制的条件下进行卷积，是一种介于普通卷积和深度可分离卷积的一种折中方案：

在这里插入图片描述

神经元简单回顾：

神经元的操作可以分为“splitting–transforming–aggregating”三步，Splitting是将数据x分离为D个特征，Transforming是将每个特征经过一个变换，Merge是将特征合成最后的输出：

在这里插入图片描述

关于Inception的分离变换聚合：

作者提到，基于上面对一个简单神经元的分析，如果把初等变换替换为更通用的函数，那么它变成了一个网络。作者将聚合变换表示为(T是由连续的卷积组成1×1->3×3->1×1)：

在这里插入图片描述

作者考虑了一种设计变换函数的简单方法：让函数T具有相同的拓扑。

ResNeXt的等效构建块：

由此看出，虽然三个网络的拓扑结构相同，但是第三个明显更加简洁，更有利于代码实现

在这里插入图片描述

（a）:聚合残差变换

（b）:相当于(a)的块，作为早期连接实现

（c）:相当于(a,b)的块，实现为分组卷积

粗体的符号突出表示了重新表示的参数变化

把作者定义的聚合变化变成残差函数公式，即在简化的Inception添加一条short-cut：

在这里插入图片描述

作者提到，深度大于等于3时，才会有不一样的效果(produce nontrivial topologies)，如果只是两层的话，区别只是这个模块比较宽而已：

在这里插入图片描述

全文而言，作者用平行堆叠相同拓扑结构的模块代替了原来ResNet的三层卷积的模块，在不明显增加参数数量级的情况下提升了模型的准确率。

实验结果：

基数和宽度之间的关系(用于conv2的模板)，在剩余块上大致保留复杂度：

在这里插入图片描述

ImageNet-1K的训练曲线，(左):保留复杂性的ResNet/ResNeXt-50，(右):保留复杂性的ResNe/ResNeXt-101：

在这里插入图片描述

ImageNet-1K消融实验，ResNet50保留了复杂性，保留复杂性的ResNet-101。错误率是在单次裁剪的224 x224像素上评估的：

在这里插入图片描述

当延迟数增加到ResNet-101的2倍时，在ImageNet-1K上进行比较，错误率是在单次裁剪的224 x 224像素上评估的：

在这里插入图片描述

ImageNet-1K验证集(单作物测试)上的最新模型。ResNet/ResNeXt的测试尺寸是224x224和320x320, Inception型号的测试尺寸是299x299：

在这里插入图片描述

测试误差与模型大小在CIFAR-10，10次运行计算得到结果，并显示标准误差条：

在这里插入图片描述

BlackBack_

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Aggregated Residual Transformations for Deep Neural Networks(ResNeXt)

该论文提出了一个简单、高度模块化的图像分类网络结构。该网络结构是通过重复一个构建块(buildng block)搭建的，这个构建块聚合了一组具有相同拓扑结构(same topology)的转换。这种策略提出了一个新的维度概念，作者称为“基数(cardinality)”，定义为转换维度的大小(the size of the set of transformations)，并且是作为一个除了深度和宽度对神经网络必不可少的因素。在ImageNet-IK数据集上，实验表明，即使在维持复杂性的限制条件下，
复制链接

扫一扫