【动手学深度学习】01线性回归模型原理讲解和代码实现（pytorch）

最新推荐文章于 2024-06-27 10:26:39 发布

是安澜啊

最新推荐文章于 2024-06-27 10:26:39 发布

阅读量1.5k

点赞数

分类专栏：动手学深度学习文章标签：深度学习机器学习线性代数

本文链接：https://blog.csdn.net/weixin_51449137/article/details/120868269

版权

动手学深度学习专栏收录该内容

6 篇文章 1 订阅

订阅专栏

线性回归原理讲解

定义

回归（regression）是指⼀类为⼀个或多个⾃变量与因变量之间关系建模的⽅法。在⾃然科学和社会科学领域，回归经常⽤来表示输入和输出之间的关系。

线性回归假设

线性回归基于⼏个简单的假设，

假设⾃变量x和因变量y 之间的关系是线性的，即y可以表⽰为x中元素的加权和，这⾥通常允许包含观测值的⼀些噪声；
我们假设任何噪声都⽐较正常，如噪声遵循正态分布。

线性回归目标

给定训练数据特征X和对应的已知标签y，线性回归的⽬标是找到⼀组权重向量w和偏置b。当给定从X的同分布中取样的新样本特征时，找到的权重向量和偏置能够使得新样本预测标签的误差尽可能小。
在我们开始寻找最好的模型参数（model parameters）w和 b 之前，我们还需要两个东西：

（1）⼀种模型质量的度量⽅式；

（2）⼀种能够更新模型以提⾼模型预测质量的⽅法。

损失函数

在我们开始考虑如何⽤模型拟合（fit）数据之前，我们需要确定⼀个拟合程度的度量。损失函数能够量化目标的实际值与预测值之间的差距。通常我们会选择⾮负数作为损失，且数值越小表⽰损失越小，完美预测时的损失为0。回归问题中最常⽤的损失函数是平方误差函数。

当样本 i 的预测值为 ˆy(i)，其相应的真实标签为 y(i) 时，平⽅误差可以定义为以下公式：

估计值 ˆy(i) 和观测值 y(i) 之间较⼤的差异将贡献更⼤的损失。为了度量模型在整个数据集上的质量，我们需计算在训练集n个样本上的损失均值（也等价于求和）。

在训练模型时，我们希望寻找⼀组参数 (w∗, b∗)，这组参数能最小化在所有训练样本上的总损失。如下式：

小批量随机下降

即使在我们⽆法得到解析解的情况下，我们仍然可以有效地训练模型。在许多任务上，那些难以优化的模型效果要更好。

我们⽤到⼀种名为梯度下降（gradient descent）的⽅法，这种⽅法⼏乎可以优化所有深度学习模型。 它通过不断地在损失函数递减的⽅向上更新参数来降低误差。

梯度下降最简单的⽤法是计算损失函数（数据集中所有样本的损失均值）关于模型参数的导数（在这⾥也可以称为梯度）。但实际中的执⾏可能会⾮常慢：因为在每⼀次更新参数之前，我们必须遍历整个数据集。因此，我们通常会在每次需要计算更新的时候随机抽取⼀小批样本，这种变体叫做小批量随机梯度下降（minibatch stochastic gradient descent）

在每次迭代中，我们⾸先随机抽样⼀个小批量B，它是由固定数量的训练样本组成的。然后，我们计算小批量的平均损失关于模型参数的导数（也可以称为梯度）。最后，我们将梯度乘以⼀个预先确定的正数η，并从当前参数的值中减掉。

|B| 表⽰每个小批量中的样本数，这也称为批量⼤小（batch size）。η 表⽰学习率（learning rate）。批量⼤小和学习率的值通常是⼿动预先指定，而不是通过模型训练得到的。这些可以调整但不在训练过程中更新的参数称为超参数（hyperparameter）。调参（hyperparameter tuning）是选择超参数的过程。超参数通常是我们根据训练迭代结果来调整的，而训练迭代结果是在独⽴的验证数据集（validation dataset）上评估得到的。
在训练了预先确定的若⼲迭代次数后（或者直到满⾜某些其他停⽌条件后），我们记录下模型参数的估计值，表⽰为ˆw, ˆb。但是，即使我们的函数确实是线性的且⽆噪声，这些估计值也不会使损失函数真正地达到最小值。因为算法会使得损失向最小值缓慢收敛，但却不能在有限的步数内⾮常精确地达到最小值。

线性回归恰好是⼀个在整个域中只有⼀个最小值的学习问题。但是对于像深度神经⽹络这样复杂的模型来说， 损失平⾯上通常包含多个最小值。幸运的是，出于某种原因，深度学习实践者很少会去花费⼤⼒⽓寻找这样⼀组参数，使得在训练集上的损失达到最小。事实上，更难做到的是找到⼀组参数，这组参数能够在我们从未⻅过的数据上实现较低的损失，这⼀挑战被称为泛化（generalization）。

正态分布和平方损失

我们通过对噪声分布的假设来解读平⽅损失⽬标函数。正态分布（normal distribution），也称为⾼斯分布（Gaussian distribution），最早由德国数学家⾼斯（Gauss）应⽤于天⽂学研究。正态分布和线性回归之间的关系很密切。简单的说，若随机变量x具有均值µ和⽅差σ2 （标准差σ），其正态分布概率密度函数如下：

均⽅误差损失函数（简称均⽅损失）可以⽤于线性回归的⼀个原因是：我们假设了观测中包含噪声，其中噪声服从正态分布。噪声正态分布如下式:

我们现在可以写出通过给定的x观测到特定y的可能性（likelihood）：

根据最⼤似然估计法，参数w和 b 的最优值是使整个数据集的可能性最⼤的值：

根据最⼤似然估计法选择的估计量称为最⼤似然估计量。虽然使许多指数函数的乘积最⼤化看起来很困难，但是我们可以在不改变⽬标的前提下，通过最⼤化似然对数来简化。由于历史原因，优化通常是说最小化而不是最⼤化。我们可以改为最小化负对数似然−logP(y | X)。由此可以得到的数学公式是：

现在我们只需要假设σ是某个固定常数就可以忽略第⼀项，因为第⼀项不依赖于 w和b。现在第⼆项除了常数 1外，其余部分和前⾯介绍的平⽅误差损失是⼀样的。幸运的是，上⾯式⼦的解并不依赖于σ。因此，在⾼斯噪声的假设下，最小化均⽅误差等价于对线性模型的最⼤似然估计。
（此处若看不懂，去看一下似然估计）

对于线性回归，每个输⼊都与每个输出（在本例中只有⼀个输出）相连，我们将这种变换称为全连接层（fully-connected layer）（或称为稠密层dense layer）。

线性回归代码实现（pytorch）

import numpy as np
import torch
from torch.utils import data    # 处理数据模块
from d2l import torch as d2l
from torch import nn

# 生成数据集
true_w = torch.tensor([2,-3.4])
true_b = 4.2
features,labels = d2l.synthetic_data(true_w,true_b,1000)

# 读取数据集
def load_array(data_arrays,batch_size,is_train=True):
    """ 构造 torch 数据迭代器 """
    dataset = data.TensorDataset(*data_arrays)
    return data.DataLoader(dataset,batch_size,shuffle=is_train) # shuffle=is_train 随机打破顺序

batch_size = 10
data_iter = load_array((features,labels),batch_size)

print(next(iter(data_iter)))

# 定义模型

net = nn.Sequential(nn.Linear(2,1))

# 初始化模型参数
net[0].weight.data.normal_(0,0.01)  # 使用正态分布normal_(0,0.01)替换相应的值
net[0].bias.data.fill_(0)   # bias 设置为0

# 定义损失函数
loss = nn.MSELoss() # 均方误差

# 定义优化算法

trainer = torch.optim.SGD(net.parameters(),lr=0.03)

# 训练
num_epochs = 3
for epoch in range(num_epochs):
    for X,y in data_iter:
        l = loss(net(X),y)
        trainer.zero_grad()
        l.backward()
        trainer.step()  # 进行模型的更新
    l = loss(net(features),labels)
    print("epoch:{:}".format(epoch+1),"loss:{:.6f}".format(l))


w = net[0].weight.data
print("w的估计误差：{:}".format(true_w-w.reshape(true_w.shape)))
b = net[0].bias.data
print("b的估计误差：{:}".format(true_b-b))

点个赞吧！

the end!

参考：

《动手学深度学习》--李沐