神经网络与深度学习#RNN-CSDN博客

本文链接：https://blog.csdn.net/weixin_53558856/article/details/148106165

引言

在深度学习的版图中，如果说CNN是处理空间数据的“空间艺术家”，那么循环神经网络（Recurrent Neural Network, RNN）就是分析时间序列的“时间诗人”。从股票预测到机器翻译，从语音识别到情感分析，RNN凭借其独特的“记忆能力”，让机器学会了理解序列数据中的时间依赖关系。本文从核心原理、技术挑战到实战应用，全面解析RNN如何成为时序建模的基石。

一、RNN的本质：带记忆的神经网络

1. 循环结构的设计哲学

与传统神经网络不同，RNN在隐藏层中引入了循环连接，使其能够保存前序时刻的信息。其核心思想可概括为：

时间展开：将序列数据（如句子、股价）按时间步展开，共享同一组参数。
状态传递：每个时刻的隐藏状态 $h_{t}$ 既依赖当前输入 $x_t$ ，也继承前一时刻的状态 $h_{t-1}$ 。

2. 数学表达

隐藏状态更新： $h_t = \sigma(W_h · h_{t-1} + W_x · x_t + b)$

输出计算： $y_t = W_y · h_t + b_y$

其中， $\sigma$ 为激活函数（如Tanh）， $W$ 为权重矩阵， $b$ 为偏置项。

3. 代码示例：手动实现RNN前向传播

import numpy as np  

class SimpleRNN:  
    def __init__(self, input_size, hidden_size):  
        self.W_h = np.random.randn(hidden_size, hidden_size) * 0.01  
        self.W_x = np.random.randn(hidden_size, input_size) * 0.01  
        self.b = np.zeros((hidden_size, 1))  

    def step(self, x, h_prev):  
        h_next = np.tanh(np.dot(self.W_h, h_prev) + np.dot(self.W_x, x) + self.b)  
        return h_next  

# 示例：处理长度为3的序列  
rnn = SimpleRNN(input_size=2, hidden_size=4)  
h0 = np.zeros((4, 1))  # 初始隐藏状态  
x_sequence = [np.array([[0.5], [-0.2]]),  # 时刻1输入  
              np.array([[-1.3], [0.8]]),  # 时刻2输入  
              np.array([[0.1], [1.2]])]   # 时刻3输入  

hidden_states = [h0]  
for x in x_sequence:  
    h_next = rnn.step(x, hidden_states[-1])  
    hidden_states.append(h_next)

二、RNN的挑战与关键技术突破

1. 梯度消失与爆炸

问题：长序列训练中，梯度通过时间反向传播时连乘导致数值不稳定。
解决方案：
- 门控机制：LSTM（长短时记忆网络）引入输入门、遗忘门、输出门控制信息流。
- 梯度裁剪：限制梯度最大值（如阈值设为5）。

2. 长期依赖建模

LSTM核心结构：
- 遗忘门：决定丢弃哪些历史信息。
- 输入门：筛选当前输入的重要特征。
- 细胞状态：跨时间步传递核心记忆，减少信息衰减。

# PyTorch实现LSTM  
import torch.nn as nn  

model = nn.LSTM(input_size=10, hidden_size=20, num_layers=2, batch_first=True)  
input_seq = torch.randn(5, 3, 10)  # (batch_size, seq_len, input_size)  
output, (h_n, c_n) = model(input_seq)  # h_n为最终隐藏状态，c_n为细胞状态