动手深度学习-3.1 线性回归

Ryan-Lily

已于 2023-06-23 14:14:34 修改

阅读量79

点赞数

文章标签：深度学习线性回归机器学习

于 2023-06-23 14:14:03 首次发布

本文链接：https://blog.csdn.net/ye13213/article/details/131347652

版权

机器学习模型中的关键要素是训练数据、模型、损失函数、优化算法。

线性回归的模型：输入特征的加权和；
线性回归的目标：找到一组权重向量和偏置，使预测值和真实值的误差尽可能小。
3.1 线性回归

3.1.1 线性回归的基本元素

线性回归基于几个两个简单的假设：①假设自变量 $\mathbf{x}$ 和因变量 $y$ 之间的关系是线性的，②假设噪声遵循正态分布。

3.1.1.1 线性模型

线性假设是指目标可以表示为特征的加权和，当我们的输入包含d个特征时，我们将预测结果 $\widehat{y}$ 表示为： $\widehat{y}=w_{1}x_{1}+...+w_{d}x_{d}+b$
使用向量形式简化模型：
$\widehat{y}=\mathbf{w}^{T}\mathbf{x}+b$
使用矩阵 $\in R^{n\times d}$ 表示整个数据集n个样本的特征向量，预测值表示为：
$\mathbf{\widehat{y}} =\mathbf{Xw} +b$
给定训练数据特征 $\mathbf{X}$ 和对应的已知标签 $\mathbf{y}$ ，线性回归的目标是找到一组权重向量 $\mathbf{w}$ 和偏置 $b$ ，当给定从 $\mathbf{X}$ 的同分布中取样的新样本特征时，这组权重和偏置使得新样本预测标签的误差尽可能小。

3.1.1.2 损失函数

损失函数能够量化预测值和实际值之间的差距，单个样本最常用的损失函数是平方误差函数：
$l^{(i)} (\mathbf{w} ,b)=\frac{1}{2}(\widehat{y}^{(i)}-y^{(i)})^{2}$
整个训练集n个样本的损失函数：
$(\mathbf{w} ,b)=\frac{1}{n}\sum_{i=1}^{n} l^{(i)} (\mathbf{w} ,b)$
在训练模型时，我们希望寻找一组参数 $\mathbf{w}^{*},b^{*}$ ，这组参数能最小化在训练样本上的总损失：
$\mathbf{w}^{*},b^{*}=\underset{\mathbf{w},b}{argmin}L(\mathbf{w},b)$

3.1.1.3 解析解

将偏置 $b$ 合并到 $\mathbf{w}$ 参数中，损失函数等价于 $\left \| \mathbf{y-Xw} \right \| ^{2}$ ，将损失函数关于 $\mathbf{w}$ 的导数设为0，得到解析解：
$\mathbf{w^{*}=(X^{T} X)^{-1}X^{T}y}$

3.1.1.4 随机梯度下降

小批量随机梯度下降的用法：

随机抽样一个小批量 $\mathcal{B}$
计算平均损失关于模型参数的梯度;
将梯度乘以一个预先确定的正数 $\eta$ ，并从当前参数值中剪掉。
迭代若干次，满足停止条件后，记录下模型参数的估计值 $\widehat{\mathbf{w} },\widehat{b}$ 。
$(\mathbf{w} ,b)\gets (\mathbf{w} ,b)-\frac{\eta}{\mathcal{B}}\sum_{i\in \mathcal{B}}^{} \partial _{(\mathbf{w} ,b)}l^{(i)} (\mathbf{w} ,b)$

3.1.1.5 用模型进行预测

根据给定特征和已学习的模型参数，估计目标的过程称为预测。
$\widehat{\mathbf{y} } =\widehat{\mathbf{w}}^{ {T}} \mathbf{x} +\widehat{b}$

3.1.2 正态分布与平方误差

若随机变量 $x$ 具有均值 $\eta$ 和方差 $\sigma ^{2}$ ，其正态分布概率密度函数如下：
$p(x)=\frac{1}{\sqrt{2\pi \sigma ^{2}}}exp(-\frac{1}{2\sigma ^{2}}(x-\mu)^{2})$

#导入库
import numpy as np
from numpy import math
from d2l import torch as d2l
#定义一个python函数来计算正态分布
def normal(x, mu, sigma):
    p = 1 / math.sqrt(2 * math.pi * sigma ** 2)
    return p * np.exp(-0.5 / sigma ** 2 * (x - mu) ** 2
#可视化正态分布
x = np.arange(-7, 7, 0.01)
params = [(0, 1), (0, 2), (3, 1)]
d2l.plot(x, [normal(x, mu, sigma) for mu, sigma in params], xlabel = 'x', ylabel = 'p(x)', figsize = (4.5, 2.5), legend = [f'mean{mu}, std{sigma}' for mu, sigma in params])

均方误差损失函数可以用于线性回归的一个原因时：我们假设了观测中包含噪声，其中噪声服从正态分布。
$y=\mathbf{wx} +b+\epsilon$
其中， $\epsilon \sim \mathcal{N(0,\sigma ^{2} )}$ 。

通过给定的 $\mathbf{x}$ 观测到特定 $y$ 的似然：
$P(y|\mathbf{x})=\frac{1}{\sqrt{2\pi\sigma^{2}}}exp(-\frac{1}{2\sigma^2}(y-\mathbf{w}^{T}\mathbf{x}-b)^2)$
根据极大似然估计法，参数 $\mathbf{w}$ 和b的最优值是使整个数据集的似然最大的值：
$P(\mathbf{y} | \mathbf{X}) = \prod_{i=1}^{n}p(y^{(i)} | \mathbf{x} ^{(i)})$
改为最小化负对数似然 $-logP(\mathbf{y} | \mathbf{X})$
$-log(P(\mathbf{y} | \mathbf{X})) = \sum_{i=1}^{n}\frac{1}{2}log(2\pi\sigma^2)+\frac{1}{2\sigma^2}(y^{(i)}- \mathbf{w} ^{T}\mathbf{x} ^{(i)} - b)^2$
因此，在高斯噪声的假设下，最小化均方误差等价于对线性模型的极大似然估计。