学习视频:
08 线性回归 + 基础优化算法【动手学深度学习v2】_哔哩哔哩_bilibili
http://localhost:8888/notebooks/chapter_linear-networks/linear-regression-scratch.ipynb
目录
注:随机数据、读取数据略,详细看课件
一、线性模型:
1.初始化模型参数:
w = torch.normal(0, 0.01, size=(2,1), requires_grad=True)
b = torch.zeros(1, requires_grad=True)
2.定义模型:
def linreg(X, w, b): #@save
"""线性回归模型"""
return torch.matmul(X, w) + b
二、衡量估计质量:
损失函数:平方损失
1.定义损失函数:
def squared_loss(y_hat, y): #@save
"""均方损失"""
return (y_hat - y.reshape(y_hat.shape)) ** 2 / 2
三、优化算法:
小批量随机梯度下降
1.定义优化算法:
def sgd(params, lr, batch_size): #@save
"""小批量随机梯度下降"""
with torch.no_grad():
for param in params:
param -= lr * param.grad / batch_size
param.grad.zero_()
四、训练过程:
lr = 0.03
num_epochs = 3
net = linreg
loss = squared_loss
for epoch in range(num_epochs):
for X, y in data_iter(batch_size, features, labels):
l = loss(net(X, w, b), y) # X和y的小批量损失
# 因为l形状是(batch_size,1),而不是一个标量。l中的所有元素被加到一起,
# 并以此计算关于[w,b]的梯度
l.sum().backward()
sgd([w, b], lr, batch_size) # 使用参数的梯度更新参数
with torch.no_grad():
train_l = loss(net(features, w, b), labels)
print(f'epoch {epoch + 1}, loss {float(train_l.mean()):f}')
print(f'w的估计误差: {true_w - w.reshape(true_w.shape)}')
print(f'b的估计误差: {true_b - b}')
五、简洁实现:
http://localhost:8888/notebooks/chapter_linear-networks/linear-regression-concise.ipynb
1.定义模型:
# nn是神经网络的缩写
from torch import nn
# Linear是全连接层,只需指定输如和输出个数(2输入,1输出)
# Squential是一个容器
net = nn.Sequential(nn.Linear(2, 1))
2.初始化模型参数:
net[0].weight.data.normal_(0, 0.01)
net[0].bias.data.fill_(0)
同上:
3.定义损失函数:
计算均方误差使用的是MSELoss
类,也称为平方L2范数]。 默认情况下,它返回所有样本损失的平均值。
loss = nn.MSELoss()
4.定义优化算法:
小批量随机梯度下降算法是一种优化神经网络的标准工具, PyTorch在optim
模块中实现了该算法的许多变种。
当我们(实例化一个SGD
实例)时,我们要指定优化的参数 (可通过net.parameters()
从我们的模型中获得)以及优化算法所需的超参数字典。 小批量随机梯度下降只需要设置lr
值,这里设置为0.03。
trainer = torch.optim.SGD(net.parameters(), lr=0.03)
5.训练:
num_epochs = 3
for epoch in range(num_epochs):
for X, y in data_iter:
l = loss(net(X) ,y)
trainer.zero_grad()
l.backward()
trainer.step()
l = loss(net(features), labels)
print(f'epoch {epoch + 1}, loss {l:f}')
w = net[0].weight.data
print('w的估计误差:', true_w - w.reshape(true_w.shape))
b = net[0].bias.data
print('b的估计误差:', true_b - b)