【22-23春】AI作业11-RNN

最新推荐文章于 2024-07-17 21:40:42 发布

吵闹の雪

最新推荐文章于 2024-07-17 21:40:42 发布

阅读量82

点赞数 1

文章标签：人工智能 rnn 深度学习

本文链接：https://blog.csdn.net/winter_poi1120/article/details/130882217

版权

前馈网络存在的问题
容易过拟合：前馈网络可能在训练集上表现很好，但是泛化到新的数据集时表现不好。过拟合意味着模型学习了训练数据中的噪声或随机误差，并将其视为关键特征，从而不能适应新数据。
结构和参数：前馈网络的结构和参数是固定的，通常需要手动设置超参数，从而可能导致模型受限于其特定的体系结构和数据，不适用于其他类型的问题或数据集。
难以处理变长输入：前馈网络的输入大小固定、连接方式固定，使其难以处理可变长度的输入序列。
序列数据
序列数据是按照时间顺序或空间顺序排布的数据集合，其中每个元素称为序列的单元或时间步骤。在自然语言处理、语音识别、图像处理等领域，序列数据经常被用来进行模式分析和分类。在序列数据的处理上，需要考虑它们之间的时序关系和上下文信息。
循环神经网络（RNN）为什么能解决前馈网络中的问题
循环神经网络在处理序列数据时考虑了时序关系，从而能够更好地处理那些输入和输出之间存在时间依赖的任务。RNN通过引入循环结构来允许信息从之前的时间步骤传递到当前时间步骤，因此可以捕捉到序列中前面的信息，并将其隐藏状态作为输入。
卷积神经网络（CNN）与循环神经网络（RNN）的异同
相同点：
都具有层层递进的结构，可以通过增加神经元数量、调整参数等方式提高网络的性能；
都使用了基本的神经元组件（如神经元、激活函数等）进行设计，使两个模型表达能力较强。
不同点：
CNN主要用于处理图像或其他高维数据，RNN主要用于处理序列数据等变长数据；
在CNNs中，使用卷积层和池化层重复计算，特征被逐步压缩到最后一个全连接层中。在RNNs中，每个节点接收输入和前一个节点的输出，并持续更新内部状态以传递信息；
CNN能够捕捉到输入数据的局部特征，RNN具有记忆能力，可以利用序列中的时序关系更好地理解整个序列。
沿时间反向传播算法（BPTT）
沿时间反向传播算法（BPTT）是一种用于训练循环神经网络（RNN）的误差反向传播算法。它基于误差反向传播算法（BP）的思想，并针对时序模型做出调整，使得神经网络能够更好地处理时间序列数据。BPTT算法首先计算损失函数关于当前时间步输出和前面时间步中所有隐藏状态的导数，然后使用链式法则计算出关于这些隐藏状态和模型参数的导数。
序列到序列模型 seq2seq
序列到序列模型（Seq2Seq）是一类常见的机器翻译和自然语言处理任务中常用的神经网络模型。它利用两个循环神经网络（RNN）来实现将一种输入序列转换为另一种输出序列的任务。模型由编码器和解码器两个组件组成。在训练期间，Seq2Seq模型旨在最小化预测输出与真实输出之间的差异。在推理时，模型可用于将输入序列翻译为目标语言的序列。
梯度消失
梯度消失是指在经过多层反向传播后，梯度逐渐变小，最终趋近于零的情况。这可能会使得下游层的权重更新很慢，进而导致模型无法训练或者收敛速度非常慢。
梯度爆炸
梯度爆炸是指在进行多层反向传播后，梯度开始增大，并且可能增长到非常大的值。这可能会使得下游层的权重更新过快或直接溢出，导致优化器无法控制训练的方向，以及收敛过早和不稳定等问题。