梯度消失

时间反向传播:
前馈网络的反向传播从最后的误差开始,经每个隐藏层的输出、权重和输入反向移动,将一定比例的误差分配给每个权重,方法是计算权重与误差的偏导数-∂E/∂w,即两者变化速度的比例。随后,梯度下降的学习算法会用这些偏导数对权重进行上下调整以减少误差。
梯度消失与梯度爆炸:
凡是学过复合利率的人都知道,任何数值,只要频繁乘以略大于一的数,就会增大到无法衡量的地步(经济学中的网络效应和难以避免的社会不平等背后正是这一简单的数学真理)。反之亦然:将一个数反复乘以小于一的数,也就会有相反的效果。赌徒要是每下一美元注都输掉97美分,那片刻就会倾家荡产。
由于深度神经网络的层和时间步通过乘法彼此联系,导数有可能消失或膨胀。梯度膨胀时,每个权重就仿佛是一只谚语中提到的蝴蝶,所有的蝴蝶一齐扇动翅膀,就会在遥远的地方引发一场飓风。这些权重的梯度增大至饱和,亦即它们的重要性被设得过高。但梯度膨胀的问题相对比较容易解决,因为可以将其截断或挤压。而消失的梯度则有可能变得过小,以至于计算机无法处理,网络无法学习-这个问题更难解决。
反复应用sigmoid函数的结果如下图所示。数据曲线越来越平缓,直至在较长的距离上无法检测到斜度。梯度在经过许多个层后消失的情况与此相似。
在这里插入图片描述
长短时记忆单元LSTM

九十年代中期,德国学者Sepp Hochreiter和Juergen Schmidhuber提出了循环网络的一种变体,带有所谓长短期记忆单元,或称LSTM,可以解决梯度消失的问题。

LSTM可保留误差,用于沿时间和层进行反向传递。LSTM将误差保持在更为恒定的水平,让循环网络能够进行许多个时间步的学习(超过1000个时间步),从而打开了建立远距离因果联系的通道。

LSTM将信息存放在循环网络正常信息流之外的门控单元中。这些单元可以存储、写入或读取信息,就像计算机内存中的数据一样。单元通过门的开关判定存储哪些信息,以及何时允许读取、写入或清除信息。但与计算机中的数字式存储器不同的是,这些门是模拟的,包含输出范围全部在0~1之间的sigmoid函数的逐元素相乘操作。相比数字式存储,模拟值的优点是可微分,因此适合反向传播。

这些门依据接收到的信号而开关,而且与神经网络的节点类似,它们会用自有的权重集对信息进行筛选,根据其强度和导入内容决定是否允许信息通过。这些权重就像调制输入和隐藏状态的权重一样,会通过循环网络的学习过程进行调整。也就是说,记忆单元会通过猜测、误差反向传播、用梯度下降调整权重的迭代过程学习何时允许数据进入、离开或被删除。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值