030、Res的妙处

之——缓解梯度下降和爆炸的原因

目录

之——缓解梯度下降和爆炸的原因

杂谈

正文

1.数学推导

2.另一个想法

3.Gpt的想法

小结


杂谈

        resnet为什么能缓解梯度下降和梯度爆炸呢:

        ResNet(Residual Networks)能够缓解梯度下降问题,特别是梯度消失和梯度爆炸问题,主要因为它引入了残差连接(residual connections)。

梯度下降问题的根本在于深层神经网络难以训练的原因之一是梯度在反向传播过程中会逐渐减小,导致浅层的权重更新比深层的权重更新更显著,从而导致梯度消失。另一个问题是在某些情况下,梯度可以变得非常大,导致梯度爆炸。

        ResNet 通过引入残差连接来解决这些问题。残差连接是指将前一层的输入添加到当前层的输出,而不是仅仅传递当前层的输出。这样的连接使得网络可以轻松地学习恒等函数,因为如果某一层的权重为零,那么该层的输出就等于前一层的输入,这不会引入额外的复杂性。

以下是 ResNet 如何缓解梯度下降问题的方式:

  1. 梯度传播: 在训练中,由于残差连接的存在,梯度可以更轻松地通过网络传播。即使在深层网络中,梯度可以一直沿着残差连接传播,而不容易消失,因此网络更容易训练。

  2. 梯度爆炸: 由于残差连接的存在,即使某一层的权重较大,输出也不会因此增加很多,因为网络可以学习将前一层的输入直接传递到输出,这会限制梯度的增长,从而减轻了梯度爆炸问题。

        总之,ResNet 的残差连接允许网络更容易地学习恒等映射,并使梯度在深层网络中更好地传播,从而帮助解决梯度下降问题,包括梯度消失和梯度爆炸,这使得更深的神经网络能够更有效地训练和学习复杂的特征。因此,ResNet 架构在深度学习中非常成功,并在各种计算机视觉任务中表现出色。


正文

1.数学推导

        一层神经网络可以用y=f(x)来表示,而叠加的模型则可以用y'=g(y)=g(f(x))表示。

        求偏导下来,你会发现四δy'/δw=δy'/δy * δy/δw,由于δy'/δy离最后输出更近,在loss下降之后梯度会很小,而总的梯度的乘法结构则使得最后层的小梯度会把整体梯度都拉的很小。

        res做的改进就是,我把y'改成y''=y+y',这样求偏导就=δy/δw+δy'/δw=δy/δw+δy'/δy * δy/δw,这样就算δy'/δy会很快变小,也不会影响底层梯度变小。

        直观上,大加小不会比大乘小。


2.另一个想法

        可否让靠近输出的lr更小,靠近输入的lr更大。

        layer-wised一些分层设计可以这样,但实际问题是不知道怎么调节这个超参数。


3.Gpt的想法

        ResNet(Residual Network)是深度学习领域中里程碑式的架构,其提出解决了深度神经网络训练过程中的梯度消失和梯度爆炸问题,同时也有助于构建非常深的网络。

        ResNet的核心是残差学习。在传统的网络结构中,网络的学习目标是学习特征的映射,比如学习输入到某一层的映射。而残差学习则是将网络设计为学习残差(residual)映射,即网络尝试学习将输入映射为残差或者变化量,而非直接学习整个映射。这样的设计允许网络集中更多的精力去学习输入和输出之间的差异,而不是尝试学习输入到输出的整个映射。这种方式避免了深度网络训练过程中的梯度消失问题。

        ResNet通过引入残差连接(shortcut connections),也称为跳跃连接(skip connections),允许信息在网络层之间直接跳跃传递。这些连接允许梯度更容易地向后传播,因为它们提供了一个跳跃或绕过层的路径,允许梯度直接传播到较早的层,从而减轻了梯度消失的问题。

        ResNet的出现带来了多方面的影响和改进:

  1. 解决梯度消失问题: 传统深层网络由于梯度的消失或爆炸而难以训练,ResNet的残差学习有效地缓解了这个问题,允许更深的网络能够训练和优化。

  2. 实现更深的网络: 通过残差块的堆叠,ResNet极大地增加了网络的深度。这种深度的网络在图像分类、目标检测、语义分割等任务中表现出色。

  3. 通用性: ResNet不仅在图像识别方面表现出色,还被证明在其他领域,如自然语言处理等任务中也具备强大的表现。

  4. 迁移学习和特征重用: 由于ResNet在训练大型数据集上的良好表现,它成为迁移学习中常用的预训练模型。预训练的ResNet模型可以在各种任务中用于特征提取,为其他任务提供强大的特征表示。

        总体来说,ResNet的提出在深度学习领域产生了巨大影响,它不仅改变了人们对深度网络设计的思考方式,还为深度网络的训练和优化提供了重要的解决方案,为各种应用领域提供了更有效的工具和方法。


小结

        深度学习的革命性发展往往伴随着对深度神经网络中的梯度计算问题的解决。以下是一些与梯度计算问题相关的重要网络和技术,它们对深度学习的发展产生了重大影响:

  1. LeNet: LeNet是早期的卷积神经网络,它在图像分类任务中表现出色。虽然它不是非常深,但它的成功为卷积神经网络的发展奠定了基础。

  2. AlexNet: AlexNet是深度学习领域的重要突破,它在2012年的ImageNet大规模视觉识别挑战赛中获胜。AlexNet的深度和广泛使用的ReLU激活函数有助于解决梯度消失问题。

  3. VGGNet: VGGNet采用了非常深的网络结构,通过小卷积核的堆叠和池化层的使用,提供了更多的网络深度。这个架构表明网络可以通过增加深度来提高性能,而不至于陷入梯度问题。

  4. ResNet: 前面提到的ResNet是深度学习历史上的一次革命,它通过引入残差连接解决了梯度消失问题,使得训练非常深的神经网络成为可能。

  5. LSTM和GRU: 这些循环神经网络结构引入了门控机制,允许网络在处理时间序列数据时更好地处理长距离依赖关系,从而改进了梯度传播。

  6. Batch Normalization: Batch Normalization是一种归一化技术,有助于加速训练过程并减轻梯度问题,使得更深的网络能够训练得更好。

  7. Gradient Clipping: 梯度截断是一种技术,用于限制梯度的范围,防止梯度爆炸问题,这对于训练深层网络非常有用。

  8. 学习率调度: 动态学习率调度方法,如学习率衰减和基于梯度的学习率调整,有助于在训练期间更好地处理梯度问题。

        这些网络和技术的发展都与梯度计算问题密切相关。通过不断改进网络结构、激活函数、正则化方法以及优化算法,研究人员成功地解决了训练深度神经网络时遇到的梯度消失和梯度爆炸问题,推动了深度学习的革命性发展。这些创新使得神经网络能够更深、更复杂地学习数据,从而在图像识别、自然语言处理、强化学习等领域取得了显著的成就。

        ResNet(Residual Network)的残差学习理论对深度神经网络的发展产生了深远影响,它的核心思想是通过跨层连接和残差块的设计,允许训练非常深的神经网络而不会遇到梯度消失或梯度爆炸等问题。这个理论被后续应用到了许多著名的神经网络架构中,以下是其中一些著名的网络:

  1. ResNet(Residual Networks):这是ResNet的原始架构,最早提出并应用残差学习理论。它在ImageNet图像分类比赛中取得了突出的成绩,成为了深度学习中非常有影响力的网络。

  2. DenseNet(Densely Connected Convolutional Networks):DenseNet采用了密集连接(dense connections)的结构,每一层都与前面的所有层相互连接,从而更好地利用了前层的特征。这个网络结构的设计借鉴了ResNet的思想,但更进一步增强了层与层之间的信息流动。

  3. SENet(Squeeze-and-Excitation Networks):SENet引入了Squeeze-and-Excitation(SE)模块,通过自适应的加权机制来增强网络对不同通道特征的关注程度。这个模块的设计可以与ResNet结构结合使用,从而提高网络性能。

  4. ResNeXt(Aggregated Residual Transformations for Deep Neural Networks):ResNeXt将ResNet的残差块进一步扩展,采用了“cardinality”(表示通道分组的参数)的概念,以提高网络的表达能力。这也是基于ResNet的改进。

  5. Wide ResNet(Wide Residual Networks):Wide ResNet通过增加残差块中的通道数量,以一种更宽的方式来构建网络,从而提高了模型的表达能力。这也是在ResNet基础上的变种。

        这些网络架构都受到了ResNet残差学习理论的启发,并在其基础上进行了改进和扩展,以应用于不同的计算机视觉任务,如图像分类、目标检测、语义分割等。这些网络结构的出现大大推动了深度学习在计算机视觉领域的发展,使得能够训练非常深的神经网络成为可能,提高了模型的性能和泛化能力。

        ResNeSt(Residual Neural Networks with Squeeze-and-Excitation of the NeStim)是一种在ResNet的基础上引入新的结构和设计思想的网络。

ResNeSt的主要特点包括:

  1. NeSt结构: ResNeSt引入了NeSt结构,通过NeSt结构对不同尺度和分辨率的特征图进行交互和整合,以改善特征的表达能力。这有助于提高网络对不同尺寸和形状的对象的检测性能。

  2. Squeeze-and-Excitation(SE)模块: ResNeSt借鉴了SENet中的思想,引入了Squeeze-and-Excitation模块,用于对每个通道的特征图进行自适应的加权,以提高网络对重要特征的关注程度。

  3. 高效的基本单元: ResNeSt中的基本单元设计更加高效,有效减少了网络的参数量和计算复杂度。这使得ResNeSt在计算效率上相对较高。

        ResNeSt的设计目标是在保持模型高性能的同时,减少参数数量,提高计算效率,同时保持与ResNet类似的训练稳定性。它通常在图像分类、目标检测和语义分割等计算机视觉任务中取得了良好的结果。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Here-We-Are

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值