transformer学习笔记1（什么是循环神经网络？循环神经网络跟卷积神经网络有什么区别？这种差异的背后的数学原理是什么？）

weixin_73311328

已于 2024-01-16 07:33:51 修改

阅读量488

点赞数 11

文章标签： transformer 学习笔记

于 2024-01-16 07:31:06 首次发布

本文链接：https://blog.csdn.net/weixin_73311328/article/details/135615041

版权

循环神经网络（Recurrent Neural Network, RNN）是一种人工神经网络，它特别适用于处理序列数据。与传统的前馈神经网络（Feedforward Neural Networks）不同，RNN在时间上具有循环的特性，即它们在网络内部包含有环状的连接，使得信息可以从一个时间步传递到下一个时间步。

在RNN中，每个单元（或称为神经元）除了接受当前时间步输入信号外，还接收前一时间步隐藏状态的输出作为输入，并计算出新的隐藏状态。这样，RNN能够捕捉到输入序列中的时间依赖性，记忆之前的信息以辅助当前时刻的决策。隐藏状态可以理解为对过去信息的一种压缩编码，随着时间的推移不断更新和演化。

RNN结构的一个关键数学表达式是：

\[ h_t = f_W(h_{t-1}, x_t) \]

其中：
- \( h_t \) 是在时间步 \( t \) 的隐藏状态。
- \( h_{t-1} \) 是前一时间步的隐藏状态。
- \( x_t \) 是当前时间步的输入。
- \( f_W \) 是带有权重矩阵 \( W \) 的非线性函数（如tanh、ReLU等）。

由于其递归特性，RNN在诸如自然语言处理（NLP）、语音识别、机器翻译、视频分析等领域有着广泛的应用。不过，标准RNN存在长期依赖问题，即较远过去的输入难以影响当前输出，这导致了LSTM（Long Short-Term Memory）和GRU（Gated Recurrent Unit）等改进模型的出现，这些模型通过门控机制有效地解决了这一问题。

循环神经网络（RNN）和卷积神经网络（CNN）是深度学习中两种针对不同类型数据结构设计的模型，它们在架构、功能和适用场景上有显著区别：

1. **网络结构**：
- **RNN**：其核心是一个或多个循环层。每个单元（cell）不仅处理当前时刻的输入，还接受前一时刻隐藏状态的反馈，并将更新后的隐藏状态传递给下一个时间步。这种结构允许信息在网络内部沿时间维度循环流动，非常适合处理序列数据，如文本、语音信号等。
- **CNN**：主要由卷积层、池化层和全连接层构成。卷积层通过移动可学习滤波器（kernel）来提取局部特征；池化层则进行下采样以降低维度并保持鲁棒性。CNN通常用于处理具有空间或时间相关性的结构化数据，如图像、视频帧、音频片段等。

2. **时空依赖性处理**：
- **RNN**：擅长捕捉长期的时间依赖性，可以考虑任意长度的历史信息对当前输出的影响。
- **CNN**：对于图像等空间数据，CNN利用卷积核捕获局部的空间关联性，但原始版本的CNN并不直接处理时间序列上的依赖关系（尽管可以通过应用到多帧或时序数据上实现时间上的特征提取）。

3. **训练方式与优化挑战**：
- **RNN**：由于递归特性，在反向传播过程中可能会出现梯度消失或梯度爆炸的问题，为此发展出了LSTM、GRU等变体来解决这些问题。
- **CNN**：由于其权重共享和稀疏连接的特点，训练相对更容易稳定，而且计算效率较高，尤其是在GPU上并行处理时。

4. **应用领域**：
- **RNN**：广泛应用于自然语言处理（NLP），例如机器翻译、文本生成、情感分析等；以及语音识别、音乐生成等领域。
- **CNN**：主要用于计算机视觉任务，如图像分类、物体检测、语义分割等；也适用于处理时间序列数据，如声音识别中的声谱图分析，或者在NLP中做词嵌入表征等。

总结来说，两者的核心差异在于RNN能够处理时间序列数据的动态变化，而CNN更擅长于发现局部空间模式并在固定大小的输入上提取特征。尽管各有侧重，但在实际应用中，两者经常结合使用，或者在各自领域内发展出更加适应复杂任务需求的变种结构。

循环神经网络（RNN）和卷积神经网络（CNN）在数学原理上的差异主要体现在它们对输入数据的处理方式和参数更新机制上：

**循环神经网络（RNN）的数学原理：**
- **递归结构与时间依赖性**：
RNN通过其内在的递归公式来捕获时间序列数据的长期依赖关系。每个时间步t的隐藏状态 \( h_t \) 是前一时刻隐藏状态 \( h_{t-1} \) 和当前时刻输入 \( x_t \) 的非线性组合，通常表达为：

\[ h_t = \phi(W_h h_{t-1} + W_x x_t + b) \]

其中，\( \phi \) 表示激活函数，如sigmoid、tanh或ReLU等；\( W_h \) 和 \( W_x \) 分别是权重矩阵，用于控制前一时刻隐藏状态和当前输入的影响程度；\( b \) 是偏置项。

- **梯度问题**：
在反向传播过程中，RNN计算梯度时会遇到所谓的“梯度消失/爆炸”问题，这是因为随着序列长度的增长，连乘多个权重矩阵可能导致梯度变得非常小或非常大。LSTM（长短期记忆）和GRU（门控循环单元）等变种通过引入门控机制和内部循环状态来缓解这个问题。

**卷积神经网络（CNN）的数学原理：**
- **局部连接与权重共享**：
CNN的核心在于卷积层，它使用卷积核（filter或kernel）扫描输入数据，并执行元素级别的加权和以及非线性变换。卷积操作可以表示为：

\[ y[i] = \phi(\sum_j w[j] \cdot x[i+j-k+1] + b) \]

这里，\( x \) 是输入特征映射，\( w \) 是卷积核，\( k \) 是卷积核大小，\( i \) 和 \( j \) 分别是输出位置索引和卷积核内位置索引，\( \phi \) 同样是激活函数，\( b \) 是对应通道的偏置。

权重共享意味着同一个卷积核在整个输入数据的不同位置上重复使用，这样既减少了模型参数数量，又能提取出具有平移不变性的局部特征。

- **池化层**：
CNN中的池化层进一步降低了计算复杂性和过拟合风险，通过执行下采样操作（如最大池化或平均池化）提取空间区域内的粗略特征。

因此，RNN和CNN背后的数学原理各自侧重于解决不同的问题：RNN通过递归结构捕捉序列数据的时间依赖性，而CNN则利用局部连接和权重共享特性有效检测图像或其他结构化数据的空间模式。

weixin_73311328

关注

11
点赞
踩
7

收藏

觉得还不错? 一键收藏
1
评论
transformer学习笔记1（什么是循环神经网络？循环神经网络跟卷积神经网络有什么区别？这种差异的背后的数学原理是什么？）

不过，标准RNN存在长期依赖问题，即较远过去的输入难以影响当前输出，这导致了LSTM（Long Short-Term Memory）和GRU（Gated Recurrent Unit）等改进模型的出现，这些模型通过门控机制有效地解决了这一问题。与传统的前馈神经网络（Feedforward Neural Networks）不同，RNN在时间上具有循环的特性，即它们在网络内部包含有环状的连接，使得信息可以从一个时间步传递到下一个时间步。- \( h_t \) 是在时间步 \( t \) 的隐藏状态。
复制链接

扫一扫

transformer学习笔记1（什么是循环神经网络？循环神经网络跟卷积神经网络有什么区别？这种差异的背后的数学原理是什么？）

“相关推荐”对你有帮助么？