HW4_SelfAttention_pytorch部分

最新推荐文章于 2024-09-03 21:51:28 发布

Sowhat^^

最新推荐文章于 2024-09-03 21:51:28 发布

阅读量1.5k

点赞数 18

分类专栏：李宏毅机器学习与深度学习2022、2023作业文章标签： pytorch 人工智能 python

本文链接：https://blog.csdn.net/weixin_57653453/article/details/139220779

版权

李宏毅机器学习与深度学习2022、2023作业专栏收录该内容

4 篇文章 0 订阅

订阅专栏

解释pytorch中torch.optim.lr_scheduler.LambdaLR的作用

torch.optim.lr_scheduler.LambdaLR 是 PyTorch 中用于调整学习率的调度器之一。它允许用户通过自定义的 lambda 函数（也就是匿名函数）来调整学习率。这种方式提供了高度的灵活性，可以实现复杂的学习率调度策略。

作用

LambdaLR 的主要作用是根据训练过程中每个 epoch 或者 batch 的变化，通过自定义函数来调整优化器的学习率。

主要参数

optimizer: 需要调整学习率的优化器。
lr_lambda: 一个函数或者函数列表，每个函数都接收一个参数 epoch 并返回一个系数，这个系数将与初始学习率相乘得到新的学习率。
last_epoch (可选): 上一个 epoch 的编号。用于恢复训练时的状态。

用法示例

1. 简单的示例

假设我们有一个优化器 optimizer，初始学习率为 0.1，我们希望每个 epoch 将学习率降低到原来的 90%。

import torch
import torch.optim as optim

# 创建一个简单的模型
model = torch.nn.Linear(2, 1)

# 使用SGD优化器
optimizer = optim.SGD(model.parameters(), lr=0.1)

# 自定义lambda函数，每个epoch降低90%
lambda1 = lambda epoch: 0.9 ** epoch

# 创建LambdaLR调度器
scheduler = optim.lr_scheduler.LambdaLR(optimizer, lr_lambda=lambda1)

# 训练循环
for epoch in range(10):
    # 训练代码...
    # 调整学习率
    scheduler.step()
    # 打印当前学习率
    print(f'Epoch {epoch}: lr = {optimizer.param_groups[0]["lr"]}')

输出：

Epoch 0: lr = 0.1
Epoch 1: lr = 0.09
Epoch 2: lr = 0.081
Epoch 3: lr = 0.0729
...

2. 使用多个lambda函数

如果优化器有多个参数组，可以使用一个lambda函数列表为每个参数组指定不同的学习率调度策略。

# 创建两个参数组的优化器
optimizer = optim.SGD([
    {'params': model.layer1.parameters(), 'lr': 0.1},
    {'params': model.layer2.parameters(), 'lr': 0.01}
])

# 为每个参数组定义一个lambda函数
lambda1 = lambda epoch: 0.9 ** epoch
lambda2 = lambda epoch: 0.95 ** epoch

# 创建LambdaLR调度器
scheduler = optim.lr_scheduler.LambdaLR(optimizer, lr_lambda=[lambda1, lambda2])

# 训练循环
for epoch in range(10):
    # 训练代码...
    # 调整学习率
    scheduler.step()
    # 打印当前学习率
    print(f'Epoch {epoch}: lr1 = {optimizer.param_groups[0]["lr"]}, lr2 = {optimizer.param_groups[1]["lr"]}')

总结

torch.optim.lr_scheduler.LambdaLR 提供了一种灵活且强大的方式来调整学习率，通过自定义的lambda函数，可以实现各种复杂的学习率调度策略，从而更好地控制模型的训练过程。

解释pytorch中model.state_dict()

在 PyTorch 中，model.state_dict() 是一个非常重要的方法，用于获取模型的状态字典（state dictionary）。状态字典是一个 Python 字典对象，它将每一层的参数（权重和偏置）映射到它们各自的张量值。具体来说，它保存了模型的所有可学习参数。

主要作用

保存模型参数：你可以将模型的状态字典保存到磁盘，以便在以后加载和恢复模型。
加载模型参数：你可以从磁盘加载一个状态字典，并将其加载到模型中，以恢复模型的状态。
检查和调试：你可以打印出状态字典的内容，以检查模型的各层参数，方便调试。

示例用法

1. 获取模型的状态字典

假设我们有一个简单的神经网络模型：

import torch
import torch.nn as nn

class SimpleModel(nn.Module):
    def __init__(self):
        super(SimpleModel, self).__init__()
        self.fc1 = nn.Linear(10, 20)
        self.fc2 = nn.Linear(20, 1)
    
    def forward(self, x):
        x = torch.relu(self.fc1(x))
        x = self.fc2(x)
        return x

# 创建模型实例
model = SimpleModel()

现在，我们可以使用 model.state_dict() 来获取模型的状态字典：

# 获取模型的状态字典
state_dict = model.state_dict()

# 打印状态字典
for param_tensor in state_dict:
    print(param_tensor, "\t", state_dict[param_tensor].size())

输出示例（显示每层参数的名称和尺寸）：

fc1.weight    torch.Size([20, 10])
fc1.bias      torch.Size([20])
fc2.weight    torch.Size([1, 20])
fc2.bias      torch.Size([1])

2. 保存模型的状态字典

你可以将模型的状态字典保存到文件中，以便以后加载：

# 保存状态字典到文件
torch.save(model.state_dict(), 'model_state.pth')

3. 加载模型的状态字典

你可以从文件加载状态字典，并将其加载到模型中，以恢复模型的状态：

# 创建模型实例
model = SimpleModel()

# 加载状态字典
model.load_state_dict(torch.load('model_state.pth'))

# 确保模型在推理模式（不启用 Dropout 等）
model.eval()

总结

model.state_dict() 是 PyTorch 中获取模型参数的标准方式。它返回一个字典，包含了模型中所有可学习参数（权重和偏置）。通过保存和加载状态字典，可以方便地持久化模型的状态，进行模型的检查和调试，并在不同的训练和推理环境中恢复模型。

Sowhat^^

关注

18
点赞
踩
19

收藏

觉得还不错? 一键收藏
1
评论
HW4_SelfAttention_pytorch部分

提供了一种灵活且强大的方式来调整学习率，通过自定义的lambda函数，可以实现各种复杂的学习率调度策略，从而更好地控制模型的训练过程。是 PyTorch 中获取模型参数的标准方式。它返回一个字典，包含了模型中所有可学习参数（权重和偏置）。通过保存和加载状态字典，可以方便地持久化模型的状态，进行模型的检查和调试，并在不同的训练和推理环境中恢复模型。
复制链接

扫一扫

专栏目录