- 长短期记忆网络 LSTM(输入门、遗忘门、输出门)
长短期记忆网络 LSTM是一种用于处理序列数据的循环神经网络,广泛应用于自然语言处理、语音识别等领域。主要通过输入门、遗忘门和输出门三个门结构来实现对序列中重要信息和非重要信息的筛选。
输入门:输入门控制着当前时刻新的输入信息能够加入单元状态中的程度。主要通过Sigmoid函数将输入信息乘以一个可学习参数的权值,再把这个结果加到循环核之前的对应位置上,从而决定是否加入当前时刻的输入。
遗忘门:遗忘门控制过去历史信息被清除的程度。主要通过Sigmoid函数和点积等运算得到一个输出,用来决定这些历史信息中哪些需要保留,哪些需要被遗忘。
输出门:输出门控制当前时刻状态的影响程度。主要通过Sigmoid函数和点积等运算得到一个输出,用来决定之前所存储的历史信息,以及输入当前的新信息是否可以进入下一个时间步,并对其进行标准化后输出。 - LSTM如何克服梯度消失
LSTM通过门控机制和长短期记忆单元的结构,能够有效地克服梯度消失的问题。
LSTM引入了门控机制,使用输入门、遗忘门和输出门等三个门来决定如何处理输入,输出和记忆。这些门在模型的训练过程中能够有效地学习到合适的参数,从而更好地控制信息的流动。LSTM中还引入了一个特殊的记忆单元结构,可以帮助网络保留和更新重要信息。该记忆单元主要由输入门、遗忘门和输出门等多个部分组成,并且可以根据当前的输入信息和历史信息,学习如何调整它的内部状态。这样,即使某个时间步上的梯度很小或者很大,网络依然能够相对稳定地进行反向传播,避免了梯度消失或爆炸的问题。 - 门控循环单元神经网络 GRU(更新门、重置门)
门控循环单元神经网络(GRU)是一种常用的循环神经网络模型,它在LSTM的基础上简化了结构,只包含了更新门和重置门两个门控结构。
更新门:更新门决定了当前时刻输入数据对于保留前一时刻记忆状态的重要性,其值范围为 0~1,当更新门接近于1时,表示当前输入比较重要,需要保留前一时刻的记忆状态;而当更新门接近于0时,表示当前输入不重要,可以全新生成一个记忆状态。
重置门:重置门则用于控制历史信息对当前时刻的影响程度,其作用是更加灵活地处理序列上的长期依赖关系。重置门同样由一个 Sigmoid 激活函数进行建模,其输出经过元素乘法与前一时刻的隐藏状态相乘,从而得到调整后的历史隐藏状态。
【22-23春】AI作业12-LSTM
最新推荐文章于 2024-07-17 21:40:42 发布