《动手学深度学习》 08线性回归

楠哥最帅

于 2023-09-22 20:32:00 发布

阅读量116

点赞数

分类专栏：动手学深度学习文章标签： python 深度学习人工智能

本文链接：https://blog.csdn.net/weixin_47408318/article/details/133184993

版权

待解决的问题

矩阵求导(已经解决~) 其实就是不同的表示方式分母布局和分子布局

for epoch in range(num_epochs):
    for X,y in data_iter(batch_size,features,labels):
        l = loss(net(X, w, b), y)  # X和y的小批量损失
        # 因为l形状是(batch_size,1)，而不是一个标量。l中的所有元素被加到一起，
        # 并以此计算关于[w,b]的梯度
        l.sum().backward()
        sgd([w,b],lr,batch_size)
    with torch.no_grad():
        train_l=loss(net(features,w,b),labels)
        print(f'epoch {epoch + 1}, loss {float(train_l.mean()):f}')

自动微分的 backward () -> 也就是反向传播计算梯度

l.sum().backward() 为什么要求sum呢？

看一看 sgd 梯度下降的公式：
$(\mathbf{w},b) \leftarrow (\mathbf{w},b) - \frac{\eta}{|\mathcal{B}|} \sum_{i \in \mathcal{B}} \partial_{(\mathbf{w},b)} l^{(i)}(\mathbf{w},b).$