优化基础模型
- 训练集:已有数据集
- 测试集:未出现在训练集的未知数据集。
训练均方误差与测试均方误差
前述公式MSE公式中应用到训练集中则称为训练均方误差,应用到测试集中,则称为测试均方误差。
引用自DW学习笔记
由图可以看出,样条拟合0方法使得测试误差最小,并且训练误差相对也小,但并不能基于训练均方误差达到最小选择模型。
偏差-方差的权衡
E
(
y
0
−
f
^
(
x
0
)
)
2
=
V
a
r
(
f
^
(
x
0
)
)
+
[
B
i
a
s
(
f
^
(
x
0
)
]
2
+
V
a
r
(
ϵ
)
E(y_0-\hat{f}(x_0))^2=Var(\hat{f}(x_0))+[Bias(\hat{f}(x_0)]^2+Var(\epsilon)
E(y0−f^(x0))2=Var(f^(x0))+[Bias(f^(x0)]2+Var(ϵ)
上述公式表示测试均方误差分解为预测值的方差、偏差的平方以及误差项的方差。预测值得方差是用不同的数据集去估计f
,这些f
之间的差异叫做方差。
偏差:选定某一模型,估计真实函数时所带入的误差。
特征提取
- 训练误差修正:上节打卡粗略叙述过;
- 交叉验证:对测试误差的直接估计;本次学习讲述K折交叉验证。
- 最优子集选择
- (i) 记不含任何特征的模型为𝑀0,计算这个𝑀0的测试误差。
- (ii) 在𝑀0基础上增加一个变量,计算p个模型的RSS,选择RSS最小的模型记作𝑀1,并计算该模型𝑀1的测试误差。
- (iii) 再增加变量,计算p-1个模型的RSS,并选择RSS最小的模型记作𝑀2,并计算该模型𝑀2的测试误差。
- (iv) 重复以上过程知道拟合的模型有p个特征为止,并选择p+1个模型{𝑀0,𝑀1,…,𝑀𝑝}中测试误差最小的模型作为最优模型。
- 向前逐步选择
和上述写的一样,不太明白其中的差别。
- 最优子集选择
压缩估计(正则化)
- 岭回归(L2正则化例子)
线性回归中,损失函数为 J ( w ) = ∑ i = 1 N ( y i − ω 0 − ∑ j = 1 p ω j x i j ) 2 J(w)=\sum_{i=1}^N(y_i-\omega_0-\sum_{j=1}^p\omega_jx_{ij})^2 J(w)=i=1∑N(yi−ω0−j=1∑pωjxij)2
在损失函数的基础上添加对系数的约束或者惩罚,即:
J ( w ) = ∑ i = 1 N ( y i − ω 0 − ∑ j = 1 p ω j x i j ) 2 + λ ∑ j = 1 p ω j 2 , 其 中 , λ ≥ 0 ω ^ = ( X T X + λ I ) − 1 X T Y J(w)=\sum_{i=1}^N(y_i-\omega_0-\sum_{j=1}^p\omega_jx_{ij})^2+\lambda\sum_{j=1}^p\omega_j^2, 其中,\lambda\ge0 \\ \hat{\omega}=(X^TX+\lambda I)^{-1}X^TY J(w)=i=1∑N(yi−ω0−j=1∑pωjxij)2+λj=1∑pωj2,其中,λ≥0ω^=(XTX+λI)−1XTY - Lasso回归(L1正则化例子)
J ( w ) = ∑ i = 1 N ( y i − ω 0 − ∑ j = 1 p ω j x i j ) 2 + λ ∑ j = 1 p ∣ ω j ∣ , 其 中 , λ ≥ 0 J(w)=\sum_{i=1}^N(y_i-\omega_0-\sum_{j=1}^p\omega_jx_{ij})^2+\lambda\sum_{j=1}^p|\omega_j|, 其中,\lambda\ge0 J(w)=i=1∑N(yi−ω0−j=1∑pωjxij)2+λj=1∑p∣ωj∣,其中,λ≥0
引用
椭圆形曲线为RSS等高线,菱形和圆形区域分别代表了L1和L2约束,Lsaao回归和岭回归都是在约束下的回归,因此最优的参数为椭圆形曲线与菱形和圆形区域相切的点。但是Lasso回归的约束在每个坐标轴上都有拐角,因此当RSS曲线与坐标轴相交时恰好回归系数中的某一个为0,这样就实现了特征提取。反观岭回归的约束是一个圆域,没有尖点,因此与RSS曲线相交的地方一般不会出现在坐标轴上,因此无法让某个特征的系数为0,因此无法做到特征提取。
降维
降维是从高维度向低维度进行投影,采用某种映射方法,即是矩阵乘法的一种几何表达。
最大投影方差的步骤:
- (i) 中心化: x i − x ‾ x_i-\overline{x} xi−x
- (ii) 计算每个点𝑥1,…,𝑥𝑁至 u 1 → \overrightarrow{u_1} u1方向上的投影: ( x i − x ‾ ) u 1 → , ∣ ∣ u 1 → ∣ ∣ = 1 (x_i-\overline{x})\overrightarrow{u_1},||\overrightarrow{u_1}||=1 (xi−x)u1,∣∣u1∣∣=1
- (iii) 计算投影方差: J = 1 N ∑ i = 1 N [ ( x i − x ‾ ) T u 1 → ] 2 , ∣ ∣ u 1 → ∣ ∣ = 1 J= \frac{1}{N} \sum_{i=1}^N[(x_i-\overline{x})^T\overrightarrow{u_1}]^2,||\overrightarrow{u_1}||=1 J=N1∑i=1N[(xi−x)Tu1]2,∣∣u1∣∣=1
- (iv) 最大化投影方差求 u 1 → \overrightarrow{u_1} u1