深度学习的优化算法之--动量法、Adagrad、RMSProp、Adadelta

一位小说男主

于 2024-12-01 13:33:45 发布

阅读量3.2k

点赞数 83

分类专栏：人工智能入门文章标签：深度学习机器学习算法

本文链接：https://blog.csdn.net/xyaixy/article/details/144168369

版权

人工智能入门专栏收录该内容

23 篇文章

订阅专栏

深度学习模型的成功训练离不开优化算法的支持。不同优化算法针对不同问题设计了特定的更新策略，帮助模型更高效地收敛到全局或局部最优解。本文将深入讲解动量法、Adagrad、RMSProp和Adadelta优化算法，结合实际代码演示它们的应用场景和效果，帮助读者掌握这些算法并学以致用。

1. 动量法（Momentum）

1.1 算法简介

动量法通过引入“动量”概念，模拟物理中的惯性，使得梯度更新时不会轻易因局部噪声或方向变化而偏离全局最优解。

动量法的核心在于：

在当前梯度的基础上，保留一部分上一时刻的更新方向。
用动量项平滑掉梯度中的高频噪声，加速在低曲率方向上的收敛。

更新公式如下：

其中：

vt：当前的动量
γ：动量系数，常设为0.9
η：学习率

1.2 代码实现与实践

以下以PyTorch为例，演示如何使用动量法优化深度学习模型。

1.2.1 实现代码：

import torch
import torch.nn as nn
import torch.optim as optim
from torchvision import datasets, transforms

# 数据准备
transform = transforms.Compose([
    transforms.ToTensor(),
    transforms.Normalize((0.5,), (0.5,))
])

train_data = datasets.MNIST(root='./data', train=True, download=True, transform=transform)
train_loader = torch.utils.data.DataLoader(train_data, batch_size=64, shuffle=True)

# 简单模型
class SimpleNN(nn.Module):
    def __init__(self):
        super(SimpleNN, self).__init__()
        self.fc = nn.Sequential(
            nn.Flatten(),
            nn.Linear(28*28, 128),
            nn.ReLU(),
            nn.Linear(128, 10)
        )
    
    def forward(self, x):
        return self.fc(x)

model = SimpleNN()

# 损失函数和动量法优化器
criterion = nn.CrossEntropyLoss()
optimizer = optim.SGD(model.parameters(), lr=0.01, momentum=0.9)

# 模型训练
for epoch in range(5):
    for inputs, targets in train_loader:
        outputs = model(inputs)
        loss = criterion(outputs, targets)

        optimizer.zero_grad()
        loss.backward()
        optimizer.step()
    
    print(f"Epoch {epoch+1}, Loss: {loss.item():.4f}")

1.2.2 应用场景

动量法适合在凸优化或高噪声梯度的场景中应用。
在图像分类任务（如CIFAR、MNIST）中，动量法可以快速收敛到更优的结果。

2. Adagrad算法

2.1 算法简介

Adagrad是一个自适应学习率算法，它为每个参数单独维护一个学习率，并根据梯度历史动态调整。梯度变化较大的参数会得到更小的学习率，变化较小的参数则有更大的学习率。

更新公式为：

其中：

gt：累计梯度平方和
ϵ：防止分母为零的小值

2.2 代码实现与实践

2.2.1 实现代码:

optimizer = optim.Adagrad(model.parameters(), lr=0.01)

for epoch in range(5):
    for inputs, targets in train_loader:
        outputs = model(inputs)
        loss = criterion(outputs, targets)

        optimizer.zero_grad()
        loss.backward()
        optimizer.step()
    
    print(f"Epoch {epoch+1}, Loss: {loss.item():.4f}")

2.2.2 应用场景

Adagrad适合处理稀疏数据或自然语言处理任务（如词向量训练）。
常用于如文本分类、机器翻译等任务。

3. RMSProp算法

3.1 算法简介

RMSProp是Adagrad的改进版本，通过引入指数衰减，解决了Adagrad中累计梯度平方和过大导致学习率趋于零的问题。

更新公式为：

其中：

st：梯度平方的指数加权平均
β：平滑系数，通常为0.9

3.2 代码实现与实践

3.2.1 实现代码:

optimizer = optim.RMSprop(model.parameters(), lr=0.01, alpha=0.9)

for epoch in range(5):
    for inputs, targets in train_loader:
        outputs = model(inputs)
        loss = criterion(outputs, targets)

        optimizer.zero_grad()
        loss.backward()
        optimizer.step()
    
    print(f"Epoch {epoch+1}, Loss: {loss.item():.4f}")

3.2.2 应用场景

RMSProp常用于深度网络训练，如循环神经网络（RNN）任务。
特别适合时序数据处理和语音识别。

4. Adadelta算法

4.1 算法简介

Adadelta是RMSProp的变体，进一步简化了学习率的依赖性。它通过引入参数更新量的指数加权平均，让学习率更加鲁棒。

更新公式为：

4.2 代码实现与实践

4.2.1 实现代码:

optimizer = optim.Adadelta(model.parameters(), rho=0.9)

for epoch in range(5):
    for inputs, targets in train_loader:
        outputs = model(inputs)
        loss = criterion(outputs, targets)

        optimizer.zero_grad()
        loss.backward()
        optimizer.step()
    
    print(f"Epoch {epoch+1}, Loss: {loss.item():.4f}")

4.2.2 应用场景

Adadelta适合需要学习率动态调整且梯度变化较大的场景。
在推荐系统与时序预测中表现良好。

5. 实验与比较：动量法、Adagrad、RMSProp与Adadelta的收敛表现

为了更直观地比较动量法（Momentum）、Adagrad、RMSProp和Adadelta优化算法，我们将通过在同一任务上对比这些算法的收敛曲线、训练精度和最终的测试准确率来分析它们的优劣。在本节中，我们将使用一个经典的图像分类任务——MNIST手写数字分类任务，来对这些优化算法进行实际测试。

5.1 实验设置

任务选择：我们选择了MNIST手写数字分类任务，这是一个具有固定训练集和测试集的经典问题，适合用来评估不同优化算法的表现。
模型结构：使用一个简单的全连接神经网络（Fully Connected Network），包括两层线性变换层和ReLU激活层。网络结构如下：
- 输入层：28×28（图像大小）
- 隐藏层：128个神经元
- 输出层：10个神经元（对应0-9的数字分类）
损失函数：交叉熵损失函数（CrossEntropyLoss）
评估指标：训练过程中的损失（Loss）和精度（Accuracy）曲线；最终测试准确率。

我们会比较四种优化算法（动量法、Adagrad、RMSProp和Adadelta）在这个任务上的表现。每个实验都会执行10轮训练，评估每个优化器的收敛速度和精度。

5.2 代码实现:

import torch
import torch.nn as nn
import torch.optim as optim
from torchvision import datasets, transforms
import matplotlib.pyplot as plt

# 数据预处理与加载
transform = transforms.Compose([transforms.ToTensor(), transforms.Normalize((0.5,), (0.5,))])
train_data = datasets.MNIST(root='./data', train=True, download=True, transform=transform)
test_data = datasets.MNIST(root='./data', train=False, download=True, transform=transform)

train_loader = torch.utils.data.DataLoader(train_data, batch_size=64, shuffle=True)
test_loader = torch.utils.data.DataLoader(test_data, batch_size=1000, shuffle=False)

# 定义简单的神经网络
class SimpleNN(nn.Module):
    def __init__(self):
        super(SimpleNN, self).__init__()
        self.fc = nn.Sequential(
            nn.Flatten(),
            nn.Linear(28*28, 128),
            nn.ReLU(),
            nn.Linear(128, 10)
        )
    
    def forward(self, x):
        return self.fc(x)

# 损失函数
criterion = nn.CrossEntropyLoss()

# 定义训练函数
def train(model, optimizer, train_loader, criterion, epochs=10):
    train_losses = []
    train_accuracies = []
    
    for epoch in range(epochs):
        model.train()
        running_loss = 0.0
        correct = 0
        total = 0
        
        for inputs, labels in train_loader:
            optimizer.zero_grad()
            outputs = model(inputs)
            loss = criterion(outputs, labels)
            loss.backward()
            optimizer.step()
            
            running_loss += loss.item()
            _, predicted = torch.max(outputs, 1)
            total += labels.size(0)
            correct += (predicted == labels).sum().item()

        train_losses.append(running_loss / len(train_loader))
        train_accuracies.append(100 * correct / total)
        
        print(f"Epoch {epoch+1}, Loss: {train_losses[-1]:.4f}, Accuracy: {train_accuracies[-1]:.2f}%")
    
    return train_losses, train_accuracies

# 定义测试函数
def test(model, test_loader):
    model.eval()
    correct = 0
    total = 0
    
    with torch.no_grad():
        for inputs, labels in test_loader:
            outputs = model(inputs)
            _, predicted = torch.max(outputs, 1)
            total += labels.size(0)
            correct += (predicted == labels).sum().item()
    
    accuracy = 100 * correct / total
    print(f"Test Accuracy: {accuracy:.2f}%")
    return accuracy

5.3 实验步骤

我们将在以下实验中分别使用动量法、Adagrad、RMSProp和Adadelta优化器来训练模型，并记录每个优化器的训练损失和训练精度。每种优化器的训练过程和结果都会被绘制成图表，以便比较它们的收敛速度和最终精度。

动量法（Momentum）：我们使用学习率0.01，动量因子设为0.9。
Adagrad：学习率为0.01。
RMSProp：学习率为0.01，衰减因子设为0.9。
Adadelta：使用默认的超参数（学习率为1.0，衰减因子为0.9）。

5.4 训练与结果对比

下面展示了使用不同优化算法时，训练过程中损失函数的变化和训练精度的变化曲线。

5.4.1 收敛曲线对比

optimizers = {
    'Momentum': optim.SGD(model.parameters(), lr=0.01, momentum=0.9),
    'Adagrad': optim.Adagrad(model.parameters(), lr=0.01),
    'RMSProp': optim.RMSprop(model.parameters(), lr=0.01, alpha=0.9),
    'Adadelta': optim.Adadelta(model.parameters(), lr=1.0, rho=0.9)
}

train_results = {}

# 训练并记录每个优化器的结果
for opt_name, optimizer in optimizers.items():
    model = SimpleNN()
    print(f"Training with {opt_name} optimizer...")
    train_losses, train_accuracies = train(model, optimizer, train_loader, criterion)
    test_accuracy = test(model, test_loader)
    
    train_results[opt_name] = {
        'losses': train_losses,
        'accuracies': train_accuracies,
        'test_accuracy': test_accuracy
    }
    
    print(f"{opt_name} test accuracy: {test_accuracy:.2f}%\n")

# 绘制收敛曲线
plt.figure(figsize=(12, 6))

# 损失曲线
plt.subplot(1, 2, 1)
for opt_name in optimizers:
    plt.plot(train_results[opt_name]['losses'], label=f"{opt_name} Loss")
plt.title('Loss Convergence Comparison')
plt.xlabel('Epochs')
plt.ylabel('Loss')
plt.legend()

# 精度曲线
plt.subplot(1, 2, 2)
for opt_name in optimizers:
    plt.plot(train_results[opt_name]['accuracies'], label=f"{opt_name} Accuracy")
plt.title('Accuracy Convergence Comparison')
plt.xlabel('Epochs')
plt.ylabel('Accuracy (%)')
plt.legend()

plt.show()

5.4.2 结果分析

通过训练结果和收敛曲线，我们可以从以下几个方面进行比较：

动量法（Momentum）：动量法的学习过程通常比较稳定。通过保持上一步的梯度方向，动量法能加速收敛，特别是在低曲率的区域。收敛曲线相对平滑，且精度较高，但在初期可能需要较长的时间才能跳出局部最优解。
Adagrad：Adagrad在训练初期的学习率较大，但随着梯度的累积，学习率逐渐减小，导致学习率在后期变得非常小。对于稀疏数据，Adagrad能够很好地调整每个参数的学习率。然而，当梯度持续较小，学习率变得过小时，Adagrad的收敛可能会变得缓慢。
RMSProp：RMSProp改进了Adagrad的缺点，通过引入指数衰减来保持过去梯度的影响，使得学习率不会过早变得很小。RMSProp通常能保持较快的收敛速度，并且对于高频噪声的处理也较好，尤其是在循环神经网络（RNN）中表现优越。
Adadelta：Adadelta进一步解决了Adagrad中学习率衰减过快的问题。它通过动态调整学习率来保证较为稳定的训练过程。Adadelta在训练过程中通常能提供平稳的收敛，尤其适用于需要逐步调整学习率的任务。