对Resnet残差网络的想法

Resnet通过远跳连接很好的解决了神经网络层数太深导致的网络退化问题。这个原理成立背后的原因如何解释。利用csdn与gpt得到一些较好的假设与解释有助于理解。

        很多深层网络中的映射接近恒等映射——该假设------在残差网络(ResNet)的设计中是成立的。不过,这并不意味着每一层的映射确实严格地等同于输入,而是在某些场景或情况下,输出和输入之间的变化相对较小。接近恒等映射意味着网络的某些层不需要进行复杂的特征转换,而只需对输入进行小幅度调整。常规的网络可以理解为复杂非线性,反而事倍功半。

这种假设在很多实际任务中是有效的,具体原因如下:

1. 深层网络的主要任务是微调高级特征

在深度神经网络中,较浅的层负责提取低级特征(如边缘、纹理),而随着网络的加深,后面的层则负责提取更高级、抽象的特征。对于某些深层次的特征表示,层与层之间的变化可能较小,只需对前面的特征做一些微调,而不是进行大规模的特征转换。

在这种情况下,假设某些层学习的映射接近于恒等映射是合理的,因为这时模型只需要对已有的特征进行精炼,而不必完全重新构建特征。

2. 深层网络中的退化现象

传统的深层网络(未引入残差连接时)往往在增加更多层后,模型性能不增反降,即出现退化现象。这表明在深层网络中,某些层并不需要太多额外的复杂变换,只需保持或微调输入即可。但在没有残差连接的情况下,这些层依然需要学习复杂的映射,增加了不必要的学习任务,导致性能下降。

ResNet 引入残差连接后,让模型默认“每层输出接近输入”的假设成立,网络如果不需要学习复杂的映射,可以通过残差连接直接传递输入,从而避免退化现象。

3. 从模型设计的角度看恒等映射

从优化角度来看,网络在训练时可以学习任意复杂的映射。但如果某些层的输入已经是非常理想的表示,模型不需要对其进行大的修改,只需保持原样或做微小调整。这时,学习恒等映射比强行学习一个新的复杂映射更为简单有效。

ResNet 中的残差连接使网络可以很容易地选择跳过不需要复杂转换的层,从而避免不必要的计算和学习。这也解释了为什么 ResNet 能够很好地训练非常深的网络。

4. 恒等映射的灵活性

残差网络中的恒等映射实际上是一种灵活的结构。在实际应用中,网络如果需要进行复杂映射,可以通过 F(x)来实现这些复杂的特征转换。如果不需要复杂变换,网络则只需学习一个接近于恒等的映射,保留输入信息。网络的学习任务被分解为“对输入做必要的调整”或“保持输入原样”,而不需要强制每层都学习复杂的映射。

5. 实验证明假设有效

ResNet 之所以成功,部分原因是这个假设得到了实际验证。在ImageNet等大规模任务中,ResNet 能够训练上百甚至上千层的网络,而性能并没有因为网络深度的增加而显著下降。实验证明,深层网络的某些层确实不需要对输入进行大的改变,残差连接让这些层能够选择保持输入不变或仅进行微调。

        虽然并非所有层的映射都是完全恒等的,但在网络的某些部分,输入和输出之间的变化确实很小,网络只需学习残差即可。通过引入残差连接,ResNet 允许网络灵活地选择学习复杂映射还是恒等映射,从而大大提升了网络的训练效果和性能。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值