【十大机器学习深入浅出】1. 线性回归第一章：线性回归原理推导

向日葵花籽儿

已于 2024-06-25 12:04:40 修改

阅读量854

点赞数 23

分类专栏：十大机器学习算法深入浅出文章标签：机器学习线性回归人工智能

于 2024-06-20 18:34:12 首次发布

本文链接：https://blog.csdn.net/weixin_45312236/article/details/139838700

版权

十大机器学习算法深入浅出专栏收录该内容

2 篇文章 0 订阅

订阅专栏

十大机器学习笔记持续更新，欢迎免费订阅专栏和关注！

一、有监督学习

有监督学习中，模型通过输入数据和对应标签进行训练，以学习预测正确输出。

1.1 标签（Label）

在有监督学习中，每个数据点都配有一个表示其真实结果或分类的标签。

对于分类问题，标签通常是类别的名称，例如在垃圾邮件检测中，标签可能是“垃圾邮件”或“非垃圾邮件”。
对于回归问题，标签是连续的数值，例如房价、气温或股票价格等。

二、机器学习概念

Data：输入数据。
Loss Function：损失函数，衡量模型预测值与实际值之间的差异。

分类与回归

分类：预测离散标签，如垃圾邮件检测。
回归：预测连续值，如房价预测。

三、线性回归

3.1 回归方程（拟合）

拟合是模型学习数据的过程，目的是最小化预测误差。
线性回归模型的一般形式为：
$\beta_0 + \beta_1 x_1 + \beta_2 x_2 + \ldots + \beta_n x_n + \epsilon$
其中 ( $y$ ) 是预测值，( $x_1$ , $x_2$ , $\ldots$ , $x_n$ ) 是特征，( $\beta_0$ , $\beta_1$ , $\ldots$ , $\beta_n$ ) 是模型参数，( $\epsilon$ ) 是误差项。

3.2 偏置和误差

误差 $\epsilon$ ：每一个样本对应着不同的误差，反应数据的不确定性和波动
偏置 θ：对应着样本的整体误差，反应模型和真实数据的偏差
截距项 $\beta_0$ ：线性回归模型中，当所有特征值为零时的预测值。

误差公式：
每个样本的误差 ( $\epsilon_i$ ) 不同，
在线性回归中，对于每个样本的误差可以通过以下公式表示：

$\epsilon_i = y_i - \hat{y}_i$

这里：

$\epsilon_i$ 是第 ( $i$ ) 个样本的误差。
$y_i$ 是第 ( $i$ ) 个样本的实际观测值。
( $\hat{y}_i$ ) 是第 ( $i$ ) 个样本的预测值，根据线性回归模型计算得出。

3.3 线性回归误差的高斯分布（正态分布）

假设误差项 ( $\epsilon$ ) 服从均值为0的正态分布，即 ( $\epsilon \sim N(0, \sigma^2)$ )。

概率密度函数：[ $f(\epsilon; \mu, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(\epsilon - \mu)^2}{2\sigma^2}}$ ]

( f( $\epsilon$ ; $\mu$ , $\sigma^2$ ) ) 是误差项 ( $\epsilon$ ) 的概率密度函数。
( $\mu$ ) 是误差的均值（在普通最小二乘线性回归中，通常假设 ( $\mu = 0$ )）。
( $\sigma^2$ ) 是误差的方差。
( $\epsilon$ ) 是单个误差项。

在线性回归中，误差项 ( $\epsilon$ ) 不一定非得满足高斯分布（正态分布）。然而，在普通最小二乘线性回归（Ordinary Least Squares, OLS）的假设中，通常假定误差项满足以下条件：

零均值：误差项的期望值为零，即 ( $E(\epsilon) = 0$ )。
同方差性：误差项具有恒定的方差，即 ( $Var(\epsilon_i) = \sigma^2$ ) 对所有 ( i ) 都相同。
独立性：误差项之间相互独立，即 ( $\epsilon_i$ ) 和 ( $\epsilon_j$ ) 之间不相关，对于 ( $\neq j$ )。
正态分布：误差项通常假定为正态分布，即 ( $\epsilon \sim N(0, \sigma^2)$ )。

3.4 似然函数

解释：什么样的参数跟我们的数据组合后恰好是真实值
对于给定的数据集，似然函数 ( L ) 可以表示为：
$L(\beta) = \prod_{i=1}^{m} P(y_i | x_i, \beta)$ 。

3.5 对数似然

对数似然 ( $\ell$ ) 是似然函数的对数，用于简化计算（乘法转换为加法）：
$\ell(\beta) = \log L(\beta)$ 。

3.6 目标函数（Loss Function）

线性回归的目标函数通常是最小化均方误差。
[ $\text{MSE}(\beta) = \frac{1}{2m} \sum_{i=1}^{m} (y_i - (\beta_0 + \beta_1 x_{i1} + \ldots + \beta_n x_{in}))^2$ ]

这里：

( $\text{MSE}(\beta)$ ) 表示均方误差目标函数。
( $m$ ) 是样本数量。
( $y_i$ ) 是第 ( $i$ ) 个观测值。
( $\beta_0$ ) 是截距项。
( $\beta_1, \ldots, \beta_n$ ) 是模型参数。
( $x_{i1}, \ldots, x_{in}$ ) 是第 ( i ) 个样本的特征值。

在实际应用中，目标函数经常乘以 ( $\frac{1}{2}$ ) 以简化梯度计算中的导数，因为 ( $\frac{\partial}{\partial \beta}(x^2) = 2x$ )，这样在梯度下降算法中可以省去2的因子。

3.7 最小二乘法

最小二乘法是一种数学优化技术，用于找到最佳拟合曲线的参数。

3.8 梯度下降

梯度下降是一种优化算法，用于最小化目标函数，通常是模型的损失函数。
它通过迭代地调整参数来寻找损失函数的最小值。
$\text{MSE}(\mathbf{\beta}) = \frac{1}{2m} \sum_{i=1}^{m} (y_i - (\beta_0 + \mathbf{x}_i \cdot \mathbf{\beta}))^2$

( $\text{MSE}(\mathbf{\beta}) ) 是均方误差目标函数。
( $m ) 是样本数量。
( $y_i$ ) 是第 ( $i$ ) 个观测值。
( $\beta_0$ ) 是截距项。
( $\mathbf{x}_i$ ) 是第 ( i ) 个样本的特征向量。
( $\mathbf{\beta}$ ) 是参数向量，包括截距项 ( $\beta_0$ ) 和特征权重 ( $\beta_1, \ldots, \beta_n$ )。
( $\mathbf{x}_i \cdot \mathbf{\beta}$ ) 表示向量 ( $\mathbf{x}_i$ ) 和 ( $\mathbf{\beta}$ ) 的点积。