文章目录
整体思路
回归是一个通常被用于 预测任务中 (通过修改也可用于分类) 的监督式方法。
线性回归模型可以是简单的,多元 (multiple) 或多变量 (multivariate) 的。
- 简单线性回归 - 一个输入,一个输出。
- 多元回归 (multiple regression) - 多输入和一个输出。
- 多变量回归 (multivariate regression) - 多输入和多输出。
通常,输出 (或称因变量 dependent variable) 被假设为是和输入 (或称自变量 independent variables, 输入空间) 线性相关 (linear related) 的。
自变量可以由输入变量的 一组固定的非线性函数 (基函数 basis functions) 的线性组合形成。
我们想要确定 相关函数 的系数 (coefficients) 并获得用于 预测新观察变量 的方程。
理论推导
让 X X X 代表输入空间,而 Y Y Y 代表一个可衡量的 R \R R 的子集。
用 D D D 表示 X X X 上的位置分布,输入是 根据这个分布 来提取的。
让 f : X → Y f: X \to Y f:X→Y 代表 目标标注函数 (target labelling function)。
这是一个确定性的学习场景 (deterministic learning scenario),随机学习场景将被分布在 ( x , y ) ∈ X × Y (x, y) \in X × Y (x,y)∈X×Y 对上。
学习器 接收 一个被标注的样本 S = { ( x 1 , y 1 ) , . . . , ( x m , y m ) } ∈ ( X × Y ) S=\{(x_1, y_1), ..., (x_m, y_m)\} \in (X × Y) S={(x1,y1),...,(xm,ym)}∈(X×Y),其中 x 1 , . . . , x m x_1, ..., x_m x1,...,xm 是从 D D D 中以 i.i.d 提取的,且 对于所有 i ∈ [ 1 , m ] i \in [1, m] i∈[1,m] 有 y i = f ( x i ) y_i = f(x_i) yi=f(xi)
测量误差大小的损失函数 被表示为 L : y × y → R + L: y × y \to \R_+ L:y×y→R+
- 通常,会使用平方误差,对于所有 y , y ‾ ∈ Y y, \overline{y} \in Y y,y∈Y ,有 L ( y , y ‾ ) = ∣ ∣ y − y ‾ ∣ ∣ 2 L(y, \overline{y}) = ||y - \overline{y}||^2 L(y,y)=∣∣y−y∣∣2
- 也会使用 L p L_p Lp 损失函数,对于所有 y , y ‾ ∈ Y y, \overline{y} \in Y y,y∈Y 以及 某些 p ≥ 1 p \ge 1 p≥1 ,有 L p ( y , y ‾ ) = ∣ ∣ y − y ‾ ∣ ∣ p L_p(y, \overline{y}) = ||y - \overline{y}||^p Lp(y,y)=∣∣y−y∣∣p
给定 能映射 X X X 到 Y Y Y 函数 的 假设集 (hypothesis set) H H H,回归问题包括使用 标记样本 S S S 找到 假设 h ∈ H h \in H h∈H,其相对于目标函数 f f f 具有较小的预期损失 (expected loss) 或 泛化损失 (generalization error)。
R ( h ) = E X ∼ D [ L ( h ( x ) , f ( x ) ) ] R(h) = E_{X\sim D}[L(h(x), f(x))] R(h)=EX∼D[L(h(x),f(x))]
经验损失 (empirical loss) 是:
R
‾
(
h
)
=
1
m
∑
i
=
1
m
L
(
h
(
x
i
)
,
y
i
)
\overline{R}(h) = \frac{1}{m} \sum_{i=1}^mL(h(x_i), y_i)
R(h)=m1i=1∑mL(h(xi),yi)
泛化界限 (Generalization Bounds)
如果 损失函数 L L L 受某个 M > 0 M \gt 0 M>0 的限制,则会导致 有界回归问题 (bounded regression problem)。
- 对于所有的 y , y ‾ ∈ Y y, \overline{y} \in Y y,y∈Y, 有 L ( y , y ‾ ) ≤ M L(y, \overline{y}) \le M L(y,y)≤M
- 更严格地说,对于所有的 h ∈ H h \in H h∈H 和 x ∈ X x \in X x∈X,有 L ( h ( x ) , f ( x ) ) ≤ M L(h(x), f(x)) \le M L(h(x),f(x))≤M
在没有证明的情况下,我们陈述以下关于回归问题泛化界限的定理:
定理 (回归泛化界限) : 令
L
L
L 为有界损失函数。假设假设集
H
H
H 是有限的。 然后,对于
δ
>
0
δ > 0
δ>0,概率至少为
1
−
δ
1 − δ
1−δ,以下不等式对所有
h
∈
H
h ∈ H
h∈H 成立:
以上定理表示了,通过使下式尽可能小
会使经验误差更加接近泛化误差。
作为练习,我们应该探索 假设集
H
(
∣
H
∣
)
H (|H|)
H(∣H∣) 的基数 (cardinality), 数字
δ
δ
δ, 损失函数的界限
M
M
M 和 训练样本的数量
m
m
m 分别如何影响泛化误差。
提示:保持其他值不变并探索改变一个变量的影响。
线性回归
让 Φ : x → R N \Phi: x \to \R^N Φ:x→RN 作为 从 输入空间 x x x 到 R N \R^N RN 的特征映射。
考虑以下线性假设 (linear hypotheses):
线性回归在
H
H
H 中寻找 均方误差 (mean squared error) 最小的假设。
给定一个 样本集
S
=
(
(
x
1
,
y
1
)
,
.
.
.
,
(
x
m
,
y
m
)
)
∈
(
X
×
Y
)
m
S = ((x_1, y_1), ..., (x_m, y_m)) \in (X × Y)^m
S=((x1,y1),...,(xm,ym))∈(X×Y)m,我们需要求解以下优化问题:
若我们使得:
优化问题可以被整理为:
考虑上式中 条目的维数
X
T
∈
R
m
×
(
N
+
1
)
X^T \in \R^{m × (N+1)}
XT∈Rm×(N+1)
W
∈
R
N
+
1
W \in \R^{N+1}
W∈RN+1
X
T
W
∈
R
m
X^TW \in \R^m
XTW∈Rm
Y
∈
R
m
Y \in \R^m
Y∈Rm
在上面的转换中,我们做了下面一件事:
y
i
=
w
i
x
i
+
b
=
w
i
′
x
i
+
1
y_i = w_ix_i + b = w_i^{'}x_i + 1
yi=wixi+b=wi′xi+1
其中 偏置
b
b
b 被提取到了 权重
w
′
w^{'}
w′ 中。
上述的矩阵表示的优化问题
F
(
W
)
F(W)
F(W) 是凸的,可差分的(differentiable) 以及拥有一个全局最小值 (global minimum),该值可以通过使以下式子 对
W
W
W 差分并等于 0 来获得:
F
(
W
)
=
1
m
∣
∣
X
T
W
−
Y
∣
∣
2
F(W) = \frac{1}{m} ||X^TW - Y||^2
F(W)=m1∣∣XTW−Y∣∣2
由上述对
W
W
W 差分并等于 0 得:
∇
F
(
W
)
=
0
;
2
m
X
(
X
T
W
−
Y
)
=
0
\nabla F(W) = 0; \frac{2}{m}X(X^TW-Y)=0
∇F(W)=0;m2X(XTW−Y)=0
接着可得
X
X
T
W
=
X
Y
XX^TW=XY
XXTW=XY
因此:
上式的结果也被称为 线性回归模型 的权重向量 (系数)
W
W
W 的最小二乘估计。
线性最小二乘 (linear least sqaure) 拟合
(
X
∈
R
2
)
(X ∈ \R^2)
(X∈R2),我们寻求最小化
Y
Y
Y 的平方误差总和 (sum of sqaured errors) 的
X
X
X 的线性函数
具有两个自变量
x
1
,
x
2
x_1, x_2
x1,x2 的最小二乘回归的
N
N
N 维几何。 预测的
y
y
y 向量 正交投影 (orthogonally projected) 到由
x
1
x1
x1 和
x
2
x2
x2 跨越的超平面上。
y
‾
\overline{y}
y 表示最小二乘预测的向量。
线性回归中的注意事项:
- 最小二乘法 估计的预测精度往往偏度小 (low bias) 但 方差大 (large variance)。
- 如果有大量的自变量,最好要找到 表现出强影响 的关键变量。
- 没有很强的 泛化保证 (generalization guarantee),因为我们只最小化经验误差而不控制 权重向量的范数 norm (长度),其中没有正则化 (regularization)。
岭回归 (Ridge Regression)
公式有点类似于线性回归,考虑从输入空间映射到特征空间,但其使用了内核 Φ ( . ) \Phi(.) Φ(.)。
这一模型在实践中给出了更好的理论保证和改进的性能 (有定理支撑这一说法),优化问题被写成了:
其中
λ
\lambda
λ 是一个决定了 正则化项 (regularization term)
∣
∣
W
∣
∣
2
||W||^2
∣∣W∣∣2 以及 经验均方误差 (empirical mean sqaured error) 之间权衡 的 正参数 (positive parameter)。
X
∈
R
N
×
m
X \in \R^{N × m}
X∈RN×m 是特征向量矩阵,而
X
=
[
Φ
(
x
1
)
,
.
.
.
,
Φ
(
x
m
)
]
X = [\Phi(x_1), ..., \Phi(x_m)]
X=[Φ(x1),...,Φ(xm)] 以及
W
W
W 以及
Y
Y
Y 都在之前被定义了。
当且仅当下面式子成立,上式的优化问题是凸的且可差分的并找到全局最小值的。
∇
F
(
W
)
=
0
⇔
(
X
X
T
+
λ
I
)
W
=
X
Y
⇔
W
=
(
X
X
T
+
λ
I
)
−
1
X
Y
\nabla F(W) = 0 \Leftrightarrow (XX^T + \lambda I)W = XY \Leftrightarrow W = (XX^T + \lambda I)^{-1}XY
∇F(W)=0⇔(XXT+λI)W=XY⇔W=(XXT+λI)−1XY
其中, X X T + λ I XX^T + \lambda I XXT+λI 总是可逆的。由于其 特征值 是半正定矩阵的非负特征值之和。
另一个可以表示 岭回归 的式子是:
岭回归性质:
- 本质上,它是一种模型选择 (model selection) 的方法,其中有参数 λ \lambda λ 来帮助对变量 适当的选择和加权。
- 岭回归参数的选择 是 平衡 “偏差-方差” (bias - variance) 权衡的工具。若使 λ \lambda λ 的值越大,则偏差越大,方差越小。交叉验证 (Cross Validation) 技术可以被用来确定该参数。
- 岭回归估计器 (ridge regression estimator) 是一种收缩估计器 (shrinkage estimator),它将最小二乘权重 (least sqaure weights) 向零缩小。
- 岭回归 可以与 (正定对称PDS) 核一起使用,因此其可以扩展到非线性回归和更通用的特征空间。
套索回归 (Lasso Regression)
我们的预测目标是选择一个经济(简约) 的模型来平衡 偏差-方差 (bias - variance) 权衡。
哪一些变量在预测中是重要的呢?
变量选择 (Variable Selection) 是解决这一问题的一种方式。
- 反向淘汰 (Backward Elimination): 从 完整的变量集 开始,并在每一步删除
F
−
r
a
t
i
o
F -ratio
F−ratio 最小的变量。
R S S 0 = ∑ i ( y i − y i ‾ ) 2 RSS_0 = \sum_i(y_i - \overline{y_i})^2 RSS0=∑i(yi−yi)2 计算 d f 0 df_0 df0 自由度 (degree of freedom) 中已经减少变量的模型。
R S S 1 = ∑ i ( y i − y i ‾ ) 2 RSS_1 = \sum_i(y_i - \overline{y_i})^2 RSS1=∑i(yi−yi)2 计算 d f 1 df_1 df1 自由度中更大的模型(即未减少变量)。
重新拟合简化的模型并重复迭代。 - 正向选择 (Forward Selection): 从一组空变量开始,然后从列表中选择给出最大 F F F 值的变量。
Lasso 的全称是 Least Absolute Shrinkage and Selection Operator (最小绝对收缩和选择算子)
基本上,其结合了 变量子集选择和收缩 (variable subset selection) 来提高准确率。
这个模型并没允许PDS内核的使用,其假设 输入空间 X X X 是 R N \R^N RN 的子集。
考虑一个线性假设:
给定一个样本集
S
=
(
(
x
1
,
y
1
)
,
.
.
.
,
(
x
m
,
y
m
)
)
∈
(
X
×
Y
)
m
S=((x_1, y_1), ..., (x_m, y_m)) \in (X × Y)^m
S=((x1,y1),...,(xm,ym))∈(X×Y)m
套索回归寻找 H H H 中的一个假设,该假设带有依赖于 权重向量范数 的正则项,并能够最小化 经验平方误差 (empirical squared error)。
套索回归使用
L
1
L_1
L1 规范 (
L
1
L_1
L1 norm) 而 岭回归使用
L
2
L_2
L2 (
L
2
L_2
L2 norm) 规范。
等同于:
Lasso 的关键特性是它导致 w w w 的稀疏解 (sparse solution) - 一个具有很少非零分量的解。
L 1 L_1 L1 规范鼓励稀疏性 (sparsity)
损失函数的主体是一个凸函数,其等高线均匀向外扩散,而 L 1 L_1 L1 的正方形正则 更容易达到参数的稀疏性,因为可能某个权重取值为0的时候 (即正方形的顶点),其会更可能首先和损失函数的最小值相遇。
模型选择和 方差-偏差 权衡
上图是 典型训练和测试误差 (training and test error) 行为 和 模型复杂度之间 的函数。 训练误差随着模型复杂度的增加而减少,但模型过拟合导致泛化能力差和方差大。但如果模型不够复杂,训练和测试误差也都会增加,模型欠拟合将导致 较大的偏差 和 较差的泛化。 因此存在 偏差-方差 权衡。
预测误差 (prediction error) 分为三部分:
- 我们无法控制的不可约误差 (irreducible error) (新测试目标的方差),即不可通过创建 好的模型 来减少的误差,这是因为数据总是带有噪声或者一些不可减少的错误。
- 偏差分量 (bias component) - 估计的真实平均值与估计的预期值之间的平方差
- 方差分量 (variance component) - 平均值的方差