机器学习基础整理(第三章) - 回归 (Regression)

整体思路

回归是一个通常被用于 预测任务中 (通过修改也可用于分类) 的监督式方法。

线性回归模型可以是简单的,多元 (multiple) 或多变量 (multivariate) 的。

  • 简单线性回归 - 一个输入,一个输出。
  • 多元回归 (multiple regression) - 多输入和一个输出。
  • 多变量回归 (multivariate regression) - 多输入和多输出。

通常,输出 (或称因变量 dependent variable) 被假设为是和输入 (或称自变量 independent variables, 输入空间) 线性相关 (linear related) 的。

自变量可以由输入变量的 一组固定的非线性函数 (基函数 basis functions) 的线性组合形成。

我们想要确定 相关函数 的系数 (coefficients) 并获得用于 预测新观察变量 的方程。

理论推导

X X X 代表输入空间,而 Y Y Y 代表一个可衡量的 R \R R 的子集。

D D D 表示 X X X 上的位置分布,输入是 根据这个分布 来提取的。

f : X → Y f: X \to Y f:XY 代表 目标标注函数 (target labelling function)。

这是一个确定性的学习场景 (deterministic learning scenario),随机学习场景将被分布在 ( x , y ) ∈ X × Y (x, y) \in X × Y (x,y)X×Y 对上。

学习器 接收 一个被标注的样本 S = { ( x 1 , y 1 ) , . . . , ( x m , y m ) } ∈ ( X × Y ) S=\{(x_1, y_1), ..., (x_m, y_m)\} \in (X × Y) S={(x1,y1),...,(xm,ym)}(X×Y),其中 x 1 , . . . , x m x_1, ..., x_m x1,...,xm 是从 D D D 中以 i.i.d 提取的,且 对于所有 i ∈ [ 1 , m ] i \in [1, m] i[1,m] y i = f ( x i ) y_i = f(x_i) yi=f(xi)

测量误差大小的损失函数 被表示为 L : y × y → R + L: y × y \to \R_+ L:y×yR+

  • 通常,会使用平方误差,对于所有 y , y ‾ ∈ Y y, \overline{y} \in Y y,yY ,有 L ( y , y ‾ ) = ∣ ∣ y − y ‾ ∣ ∣ 2 L(y, \overline{y}) = ||y - \overline{y}||^2 L(y,y)=yy2
  • 也会使用 L p L_p Lp 损失函数,对于所有 y , y ‾ ∈ Y y, \overline{y} \in Y y,yY 以及 某些 p ≥ 1 p \ge 1 p1 ,有 L p ( y , y ‾ ) = ∣ ∣ y − y ‾ ∣ ∣ p L_p(y, \overline{y}) = ||y - \overline{y}||^p Lp(y,y)=yyp

给定 能映射 X X X Y Y Y 函数 的 假设集 (hypothesis set) H H H,回归问题包括使用 标记样本 S S S 找到 假设 h ∈ H h \in H hH,其相对于目标函数 f f f 具有较小的预期损失 (expected loss) 或 泛化损失 (generalization error)。

R ( h ) = E X ∼ D [ L ( h ( x ) , f ( x ) ) ] R(h) = E_{X\sim D}[L(h(x), f(x))] R(h)=EXD[L(h(x),f(x))]

经验损失 (empirical loss) 是:
R ‾ ( h ) = 1 m ∑ i = 1 m L ( h ( x i ) , y i ) \overline{R}(h) = \frac{1}{m} \sum_{i=1}^mL(h(x_i), y_i) R(h)=m1i=1mL(h(xi),yi)

泛化界限 (Generalization Bounds)

如果 损失函数 L L L 受某个 M > 0 M \gt 0 M>0 的限制,则会导致 有界回归问题 (bounded regression problem)。

  • 对于所有的 y , y ‾ ∈ Y y, \overline{y} \in Y y,yY, 有 L ( y , y ‾ ) ≤ M L(y, \overline{y}) \le M L(y,y)M
  • 更严格地说,对于所有的 h ∈ H h \in H hH x ∈ X x \in X xX,有 L ( h ( x ) , f ( x ) ) ≤ M L(h(x), f(x)) \le M L(h(x),f(x))M

在没有证明的情况下,我们陈述以下关于回归问题泛化界限的定理:

定理 (回归泛化界限) : 令 L L L 为有界损失函数。假设假设集 H H H 是有限的。 然后,对于 δ > 0 δ > 0 δ>0,概率至少为 1 − δ 1 − δ 1δ,以下不等式对所有 h ∈ H h ∈ H hH 成立:
在这里插入图片描述
以上定理表示了,通过使下式尽可能小
在这里插入图片描述
会使经验误差更加接近泛化误差。

作为练习,我们应该探索 假设集 H ( ∣ H ∣ ) H (|H|) H(H) 的基数 (cardinality), 数字 δ δ δ, 损失函数的界限 M M M 和 训练样本的数量 m m m 分别如何影响泛化误差。
提示:保持其他值不变并探索改变一个变量的影响。

线性回归

Φ : x → R N \Phi: x \to \R^N Φ:xRN 作为 从 输入空间 x x x R N \R^N RN 的特征映射。

考虑以下线性假设 (linear hypotheses):

在这里插入图片描述
线性回归在 H H H 中寻找 均方误差 (mean squared error) 最小的假设。

给定一个 样本集 S = ( ( x 1 , y 1 ) , . . . , ( x m , y m ) ) ∈ ( X × Y ) m S = ((x_1, y_1), ..., (x_m, y_m)) \in (X × Y)^m S=((x1,y1),...,(xm,ym))(X×Y)m,我们需要求解以下优化问题:
在这里插入图片描述
若我们使得:
在这里插入图片描述
优化问题可以被整理为:
在这里插入图片描述
考虑上式中 条目的维数
X T ∈ R m × ( N + 1 ) X^T \in \R^{m × (N+1)} XTRm×(N+1)
W ∈ R N + 1 W \in \R^{N+1} WRN+1
X T W ∈ R m X^TW \in \R^m XTWRm
Y ∈ R m Y \in \R^m YRm

在上面的转换中,我们做了下面一件事:
y i = w i x i + b = w i ′ x i + 1 y_i = w_ix_i + b = w_i^{'}x_i + 1 yi=wixi+b=wixi+1
其中 偏置 b b b 被提取到了 权重 w ′ w^{'} w 中。

上述的矩阵表示的优化问题 F ( W ) F(W) F(W) 是凸的,可差分的(differentiable) 以及拥有一个全局最小值 (global minimum),该值可以通过使以下式子 对 W W W 差分并等于 0 来获得:
F ( W ) = 1 m ∣ ∣ X T W − Y ∣ ∣ 2 F(W) = \frac{1}{m} ||X^TW - Y||^2 F(W)=m1XTWY2

由上述对 W W W 差分并等于 0 得:
∇ F ( W ) = 0 ; 2 m X ( X T W − Y ) = 0 \nabla F(W) = 0; \frac{2}{m}X(X^TW-Y)=0 F(W)=0;m2X(XTWY)=0
接着可得
X X T W = X Y XX^TW=XY XXTW=XY
因此:
在这里插入图片描述
上式的结果也被称为 线性回归模型 的权重向量 (系数) W W W 的最小二乘估计。

线性最小二乘 (linear least sqaure) 拟合 ( X ∈ R 2 ) (X ∈ \R^2) (XR2),我们寻求最小化 Y Y Y 的平方误差总和 (sum of sqaured errors) 的 X X X 的线性函数
在这里插入图片描述
具有两个自变量 x 1 , x 2 x_1, x_2 x1,x2 的最小二乘回归的 N N N 维几何。 预测的 y y y 向量 正交投影 (orthogonally projected) 到由 x 1 x1 x1 x 2 x2 x2 跨越的超平面上。 y ‾ \overline{y} y 表示最小二乘预测的向量。
在这里插入图片描述
线性回归中的注意事项:

  • 最小二乘法 估计的预测精度往往偏度小 (low bias) 但 方差大 (large variance)。
  • 如果有大量的自变量,最好要找到 表现出强影响 的关键变量。
  • 没有很强的 泛化保证 (generalization guarantee),因为我们只最小化经验误差而不控制 权重向量的范数 norm (长度),其中没有正则化 (regularization)。

岭回归 (Ridge Regression)

公式有点类似于线性回归,考虑从输入空间映射到特征空间,但其使用了内核 Φ ( . ) \Phi(.) Φ(.)

这一模型在实践中给出了更好的理论保证和改进的性能 (有定理支撑这一说法),优化问题被写成了:
在这里插入图片描述
其中 λ \lambda λ 是一个决定了 正则化项 (regularization term) ∣ ∣ W ∣ ∣ 2 ||W||^2 W2 以及 经验均方误差 (empirical mean sqaured error) 之间权衡 的 正参数 (positive parameter)。 X ∈ R N × m X \in \R^{N × m} XRN×m 是特征向量矩阵,而 X = [ Φ ( x 1 ) , . . . , Φ ( x m ) ] X = [\Phi(x_1), ..., \Phi(x_m)] X=[Φ(x1),...,Φ(xm)] 以及 W W W 以及 Y Y Y 都在之前被定义了。

当且仅当下面式子成立,上式的优化问题是凸的且可差分的并找到全局最小值的。
∇ F ( W ) = 0 ⇔ ( X X T + λ I ) W = X Y ⇔ W = ( X X T + λ I ) − 1 X Y \nabla F(W) = 0 \Leftrightarrow (XX^T + \lambda I)W = XY \Leftrightarrow W = (XX^T + \lambda I)^{-1}XY F(W)=0(XXT+λI)W=XYW=(XXT+λI)1XY

其中, X X T + λ I XX^T + \lambda I XXT+λI 总是可逆的。由于其 特征值 是半正定矩阵的非负特征值之和。

另一个可以表示 岭回归 的式子是:

在这里插入图片描述
岭回归性质:

  • 本质上,它是一种模型选择 (model selection) 的方法,其中有参数 λ \lambda λ 来帮助对变量 适当的选择和加权。
  • 岭回归参数的选择 是 平衡 “偏差-方差” (bias - variance) 权衡的工具。若使 λ \lambda λ 的值越大,则偏差越大,方差越小。交叉验证 (Cross Validation) 技术可以被用来确定该参数。
  • 岭回归估计器 (ridge regression estimator) 是一种收缩估计器 (shrinkage estimator),它将最小二乘权重 (least sqaure weights) 向零缩小。
  • 岭回归 可以与 (正定对称PDS) 核一起使用,因此其可以扩展到非线性回归和更通用的特征空间。

套索回归 (Lasso Regression)

我们的预测目标是选择一个经济(简约) 的模型来平衡 偏差-方差 (bias - variance) 权衡。

哪一些变量在预测中是重要的呢?

变量选择 (Variable Selection) 是解决这一问题的一种方式。

  • 反向淘汰 (Backward Elimination): 从 完整的变量集 开始,并在每一步删除 F − r a t i o F -ratio Fratio 最小的变量。
    在这里插入图片描述
    R S S 0 = ∑ i ( y i − y i ‾ ) 2 RSS_0 = \sum_i(y_i - \overline{y_i})^2 RSS0=i(yiyi)2 计算 d f 0 df_0 df0 自由度 (degree of freedom) 中已经减少变量的模型。
    R S S 1 = ∑ i ( y i − y i ‾ ) 2 RSS_1 = \sum_i(y_i - \overline{y_i})^2 RSS1=i(yiyi)2 计算 d f 1 df_1 df1 自由度中更大的模型(即未减少变量)。
    重新拟合简化的模型并重复迭代。
  • 正向选择 (Forward Selection): 从一组空变量开始,然后从列表中选择给出最大 F F F 值的变量。

Lasso 的全称是 Least Absolute Shrinkage and Selection Operator (最小绝对收缩和选择算子)
基本上,其结合了 变量子集选择和收缩 (variable subset selection) 来提高准确率。

这个模型并没允许PDS内核的使用,其假设 输入空间 X X X R N \R^N RN 的子集。

考虑一个线性假设:
在这里插入图片描述
给定一个样本集 S = ( ( x 1 , y 1 ) , . . . , ( x m , y m ) ) ∈ ( X × Y ) m S=((x_1, y_1), ..., (x_m, y_m)) \in (X × Y)^m S=((x1,y1),...,(xm,ym))(X×Y)m

套索回归寻找 H H H 中的一个假设,该假设带有依赖于 权重向量范数 的正则项,并能够最小化 经验平方误差 (empirical squared error)。

套索回归使用 L 1 L_1 L1 规范 ( L 1 L_1 L1 norm) 而 岭回归使用 L 2 L_2 L2 ( L 2 L_2 L2 norm) 规范。
在这里插入图片描述
等同于:
在这里插入图片描述

Lasso 的关键特性是它导致 w w w 的稀疏解 (sparse solution) - 一个具有很少非零分量的解。

L 1 L_1 L1 规范鼓励稀疏性 (sparsity)

在这里插入图片描述
在这里插入图片描述

损失函数的主体是一个凸函数,其等高线均匀向外扩散,而 L 1 L_1 L1 的正方形正则 更容易达到参数的稀疏性,因为可能某个权重取值为0的时候 (即正方形的顶点),其会更可能首先和损失函数的最小值相遇。

模型选择和 方差-偏差 权衡

在这里插入图片描述
上图是 典型训练和测试误差 (training and test error) 行为 和 模型复杂度之间 的函数。 训练误差随着模型复杂度的增加而减少,但模型过拟合导致泛化能力差和方差大。但如果模型不够复杂,训练和测试误差也都会增加,模型欠拟合将导致 较大的偏差 和 较差的泛化。 因此存在 偏差-方差 权衡。

预测误差 (prediction error) 分为三部分:

  • 我们无法控制的不可约误差 (irreducible error) (新测试目标的方差),即不可通过创建 好的模型 来减少的误差,这是因为数据总是带有噪声或者一些不可减少的错误。
  • 偏差分量 (bias component) - 估计的真实平均值与估计的预期值之间的平方差
  • 方差分量 (variance component) - 平均值的方差
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值