机器学习基础整理(第三章) - 回归 (Regression)

最新推荐文章于 2023-11-29 17:15:34 发布

王踹踹

最新推荐文章于 2023-11-29 17:15:34 发布

阅读量741

点赞数

分类专栏：机器学习文章标签：机器学习

机器学习专栏收录该内容

9 篇文章 7 订阅

订阅专栏

文章目录

整体思路
理论推导
泛化界限 (Generalization Bounds)
线性回归
- 岭回归 (Ridge Regression)
- 套索回归 (Lasso Regression)
模型选择和方差-偏差权衡

整体思路

回归是一个通常被用于预测任务中 (通过修改也可用于分类) 的监督式方法。

线性回归模型可以是简单的，多元 (multiple) 或多变量 (multivariate) 的。

简单线性回归 - 一个输入，一个输出。
多元回归 (multiple regression) - 多输入和一个输出。
多变量回归 (multivariate regression) - 多输入和多输出。

通常，输出 (或称因变量 dependent variable) 被假设为是和输入 (或称自变量 independent variables, 输入空间) 线性相关 (linear related) 的。

自变量可以由输入变量的一组固定的非线性函数 (基函数 basis functions) 的线性组合形成。

我们想要确定相关函数的系数 (coefficients) 并获得用于预测新观察变量的方程。

理论推导

让 $X$ 代表输入空间，而 $Y$ 代表一个可衡量的 $\R$ 的子集。

用 $D$ 表示 $X$ 上的位置分布，输入是根据这个分布来提取的。

让 $\to Y$ 代表目标标注函数 (target labelling function)。

这是一个确定性的学习场景 (deterministic learning scenario)，随机学习场景将被分布在 $\in X × Y$ 对上。

学习器接收一个被标注的样本 $S=\{(x_1, y_1), ..., (x_m, y_m)\} \in (X × Y)$ ，其中 $x_1, ..., x_m$ 是从 $D$ 中以 i.i.d 提取的，且对于所有 $\in [1, m]$ 有 $y_i = f(x_i)$

测量误差大小的损失函数被表示为 $\to \R_+$

通常，会使用平方误差，对于所有 $\overline{y} \in Y$ ，有 $\overline{y}) = ||y - \overline{y}||^2$
也会使用 $L_p$ 损失函数，对于所有 $\overline{y} \in Y$ 以及某些 $\ge 1$ ，有 $L_p(y, \overline{y}) = ||y - \overline{y}||^p$

给定能映射 $X$ 到 $Y$ 函数的假设集 (hypothesis set) $H$ ，回归问题包括使用标记样本 $S$ 找到假设 $\in H$ ，其相对于目标函数 $f$ 具有较小的预期损失 (expected loss) 或泛化损失 (generalization error)。

$E_{X\sim D}[L(h(x), f(x))]$

经验损失 (empirical loss) 是:
$\overline{R}(h) = \frac{1}{m} \sum_{i=1}^mL(h(x_i), y_i)$

泛化界限 (Generalization Bounds)

如果损失函数 $L$ 受某个 $\gt 0$ 的限制，则会导致有界回归问题 (bounded regression problem)。

对于所有的 $\overline{y} \in Y$ , 有 $\overline{y}) \le M$
更严格地说，对于所有的 $\in H$ 和 $\in X$ ，有 $\le M$

在没有证明的情况下，我们陈述以下关于回归问题泛化界限的定理:

定理 (回归泛化界限) : 令 $L$ 为有界损失函数。假设假设集 $H$ 是有限的。然后，对于 $δ > 0$ ，概率至少为 $1 - δ$ ，以下不等式对所有 $h \in H$ 成立：
在这里插入图片描述
以上定理表示了，通过使下式尽可能小

会使经验误差更加接近泛化误差。

作为练习，我们应该探索假设集 $H (∣ H ∣)$ 的基数 (cardinality), 数字 $δ$ , 损失函数的界限 $M$ 和训练样本的数量 $m$ 分别如何影响泛化误差。
提示：保持其他值不变并探索改变一个变量的影响。

线性回归

让 $\Phi: x \to \R^N$ 作为从输入空间 $x$ 到 $R^N$ 的特征映射。

考虑以下线性假设 (linear hypotheses):

在这里插入图片描述
线性回归在 $H$ 中寻找均方误差 (mean squared error) 最小的假设。

给定一个样本集 $((x_1, y_1), ..., (x_m, y_m)) \in (X × Y)^m$ ，我们需要求解以下优化问题:
在这里插入图片描述
若我们使得:

优化问题可以被整理为:

考虑上式中条目的维数
$X^T \in \R^{m × (N+1)}$
$\in \R^{N+1}$
$X^TW \in \R^m$
$\in \R^m$

在上面的转换中，我们做了下面一件事:
$y_i = w_ix_i + b = w_i^{'}x_i + 1$
其中偏置 $b$ 被提取到了权重 $w^{'}$ 中。

上述的矩阵表示的优化问题 $F (W)$ 是凸的，可差分的(differentiable) 以及拥有一个全局最小值 (global minimum)，该值可以通过使以下式子对 $W$ 差分并等于 0 来获得:
$\frac{1}{m} ||X^TW - Y||^2$

由上述对 $W$ 差分并等于 0 得:
$\nabla F(W) = 0; \frac{2}{m}X(X^TW-Y)=0$
接着可得
$XX^TW=XY$
因此:
在这里插入图片描述
上式的结果也被称为线性回归模型的权重向量 (系数) $W$ 的最小二乘估计。

线性最小二乘 (linear least sqaure) 拟合 $X ∈ \R^2)$ ，我们寻求最小化 $Y$ 的平方误差总和 (sum of sqaured errors) 的 $X$ 的线性函数
在这里插入图片描述
具有两个自变量 $x_1, x_2$ 的最小二乘回归的 $N$ 维几何。预测的 $y$ 向量正交投影 (orthogonally projected) 到由 $x 1$ 和 $x 2$ 跨越的超平面上。 $\overline{y}$ 表示最小二乘预测的向量。

线性回归中的注意事项:

最小二乘法估计的预测精度往往偏度小 (low bias) 但方差大 (large variance)。
如果有大量的自变量，最好要找到表现出强影响的关键变量。
没有很强的泛化保证 (generalization guarantee)，因为我们只最小化经验误差而不控制权重向量的范数 norm (长度)，其中没有正则化 (regularization)。

岭回归 (Ridge Regression)

公式有点类似于线性回归，考虑从输入空间映射到特征空间，但其使用了内核 $\Phi(.)$ 。

这一模型在实践中给出了更好的理论保证和改进的性能 (有定理支撑这一说法)，优化问题被写成了:
在这里插入图片描述
其中 $\lambda$ 是一个决定了正则化项 (regularization term) $W||^2$ 以及经验均方误差 (empirical mean sqaured error) 之间权衡的正参数 (positive parameter)。 $\in \R^{N × m}$ 是特征向量矩阵，而 $[\Phi(x_1), ..., \Phi(x_m)]$ 以及 $W$ 以及 $Y$ 都在之前被定义了。

当且仅当下面式子成立，上式的优化问题是凸的且可差分的并找到全局最小值的。
$\nabla F(W) = 0 \Leftrightarrow (XX^T + \lambda I)W = XY \Leftrightarrow W = (XX^T + \lambda I)^{-1}XY$

其中， $XX^T + \lambda I$ 总是可逆的。由于其特征值是半正定矩阵的非负特征值之和。

另一个可以表示岭回归的式子是:

在这里插入图片描述
岭回归性质:

本质上，它是一种模型选择 (model selection) 的方法，其中有参数 $\lambda$ 来帮助对变量适当的选择和加权。
岭回归参数的选择是平衡 “偏差-方差” (bias - variance) 权衡的工具。若使 $\lambda$ 的值越大，则偏差越大，方差越小。交叉验证 (Cross Validation) 技术可以被用来确定该参数。
岭回归估计器 (ridge regression estimator) 是一种收缩估计器 (shrinkage estimator)，它将最小二乘权重 (least sqaure weights) 向零缩小。
岭回归可以与 (正定对称PDS) 核一起使用，因此其可以扩展到非线性回归和更通用的特征空间。

套索回归 (Lasso Regression)

我们的预测目标是选择一个经济(简约) 的模型来平衡偏差-方差 (bias - variance) 权衡。

哪一些变量在预测中是重要的呢？

变量选择 (Variable Selection) 是解决这一问题的一种方式。

反向淘汰 (Backward Elimination): 从完整的变量集开始，并在每一步删除 $F - r a t i o$ 最小的变量。

$RSS_0 = \sum_i(y_i - \overline{y_i})^2$ 计算 $df_0$ 自由度 (degree of freedom) 中已经减少变量的模型。
$RSS_1 = \sum_i(y_i - \overline{y_i})^2$ 计算 $df_1$ 自由度中更大的模型(即未减少变量)。
重新拟合简化的模型并重复迭代。
正向选择 (Forward Selection): 从一组空变量开始，然后从列表中选择给出最大 $F$ 值的变量。

Lasso 的全称是 Least Absolute Shrinkage and Selection Operator (最小绝对收缩和选择算子)
基本上，其结合了变量子集选择和收缩 (variable subset selection) 来提高准确率。

这个模型并没允许PDS内核的使用，其假设输入空间 $X$ 是 $R^N$ 的子集。

考虑一个线性假设:
在这里插入图片描述
给定一个样本集 $S=((x_1, y_1), ..., (x_m, y_m)) \in (X × Y)^m$

套索回归寻找 $H$ 中的一个假设，该假设带有依赖于权重向量范数的正则项，并能够最小化经验平方误差 (empirical squared error)。

套索回归使用 $L_1$ 规范 ( $L_1$ norm) 而岭回归使用 $L_2$ ( $L_2$ norm) 规范。
在这里插入图片描述
等同于:

Lasso 的关键特性是它导致 $w$ 的稀疏解 (sparse solution) - 一个具有很少非零分量的解。

$L_1$ 规范鼓励稀疏性 (sparsity)

在这里插入图片描述

损失函数的主体是一个凸函数，其等高线均匀向外扩散，而 $L_1$ 的正方形正则更容易达到参数的稀疏性，因为可能某个权重取值为0的时候 (即正方形的顶点)，其会更可能首先和损失函数的最小值相遇。

模型选择和方差-偏差权衡

在这里插入图片描述
上图是典型训练和测试误差 (training and test error) 行为和模型复杂度之间的函数。训练误差随着模型复杂度的增加而减少，但模型过拟合导致泛化能力差和方差大。但如果模型不够复杂，训练和测试误差也都会增加，模型欠拟合将导致较大的偏差和较差的泛化。因此存在偏差-方差权衡。

预测误差 (prediction error) 分为三部分：

我们无法控制的不可约误差 (irreducible error) (新测试目标的方差)，即不可通过创建好的模型来减少的误差，这是因为数据总是带有噪声或者一些不可减少的错误。
偏差分量 (bias component) - 估计的真实平均值与估计的预期值之间的平方差
方差分量 (variance component) - 平均值的方差

王踹踹

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
机器学习基础整理(第三章) - 回归 (Regression)

文章目录整体思路理论推导整体思路回归是一个通常被用于预测任务中 (通过修改也可用于分类) 的监督式方法。线性回归模型可以是简单的，多元 (multiple) 或多变量 (multivariate) 的。简单线性回归 - 一个输入，一个输出。多元回归 (multiple regression) - 多输入和一个输出。多变量回归 (multivariate regression) - 多输入和多输出。通常，输出 (或称因变量 dependent variable) 被假设为是和输入 (或称自
复制链接

扫一扫