DW_task3_机器学习基础

优化基础模型

  • 训练集:已有数据集
  • 测试集:未出现在训练集的未知数据集。

训练均方误差与测试均方误差

前述公式MSE公式中应用到训练集中则称为训练均方误差,应用到测试集中,则称为测试均方误差。
在这里插入图片描述

引用自DW学习笔记由图可以看出,样条拟合0方法使得测试误差最小,并且训练误差相对也小,但并不能基于训练均方误差达到最小选择模型。

偏差-方差的权衡

E ( y 0 − f ^ ( x 0 ) ) 2 = V a r ( f ^ ( x 0 ) ) + [ B i a s ( f ^ ( x 0 ) ] 2 + V a r ( ϵ ) E(y_0-\hat{f}(x_0))^2=Var(\hat{f}(x_0))+[Bias(\hat{f}(x_0)]^2+Var(\epsilon) E(y0f^(x0))2=Var(f^(x0))+[Bias(f^(x0)]2+Var(ϵ)
上述公式表示测试均方误差分解为预测值的方差、偏差的平方以及误差项的方差。预测值得方差是用不同的数据集去估计f,这些f之间的差异叫做方差。
偏差:选定某一模型,估计真实函数时所带入的误差。

特征提取

  • 训练误差修正:上节打卡粗略叙述过;
  • 交叉验证:对测试误差的直接估计;本次学习讲述K折交叉验证。
    • 最优子集选择
      • (i) 记不含任何特征的模型为𝑀0,计算这个𝑀0的测试误差。
      • (ii) 在𝑀0基础上增加一个变量,计算p个模型的RSS,选择RSS最小的模型记作𝑀1,并计算该模型𝑀1的测试误差。
      • (iii) 再增加变量,计算p-1个模型的RSS,并选择RSS最小的模型记作𝑀2,并计算该模型𝑀2的测试误差。
      • (iv) 重复以上过程知道拟合的模型有p个特征为止,并选择p+1个模型{𝑀0,𝑀1,…,𝑀𝑝}中测试误差最小的模型作为最优模型。
    • 向前逐步选择
      和上述写的一样,不太明白其中的差别。

压缩估计(正则化)

  • 岭回归(L2正则化例子)
    线性回归中,损失函数为 J ( w ) = ∑ i = 1 N ( y i − ω 0 − ∑ j = 1 p ω j x i j ) 2 J(w)=\sum_{i=1}^N(y_i-\omega_0-\sum_{j=1}^p\omega_jx_{ij})^2 J(w)=i=1N(yiω0j=1pωjxij)2
    在损失函数的基础上添加对系数的约束或者惩罚,即:
    J ( w ) = ∑ i = 1 N ( y i − ω 0 − ∑ j = 1 p ω j x i j ) 2 + λ ∑ j = 1 p ω j 2 , 其 中 , λ ≥ 0 ω ^ = ( X T X + λ I ) − 1 X T Y J(w)=\sum_{i=1}^N(y_i-\omega_0-\sum_{j=1}^p\omega_jx_{ij})^2+\lambda\sum_{j=1}^p\omega_j^2, 其中,\lambda\ge0 \\ \hat{\omega}=(X^TX+\lambda I)^{-1}X^TY J(w)=i=1N(yiω0j=1pωjxij)2+λj=1pωj2,λ0ω^=(XTX+λI)1XTY
  • Lasso回归(L1正则化例子)
    J ( w ) = ∑ i = 1 N ( y i − ω 0 − ∑ j = 1 p ω j x i j ) 2 + λ ∑ j = 1 p ∣ ω j ∣ , 其 中 , λ ≥ 0 J(w)=\sum_{i=1}^N(y_i-\omega_0-\sum_{j=1}^p\omega_jx_{ij})^2+\lambda\sum_{j=1}^p|\omega_j|, 其中,\lambda\ge0 J(w)=i=1N(yiω0j=1pωjxij)2+λj=1pωj,λ0
    在这里插入图片描述

引用椭圆形曲线为RSS等高线,菱形和圆形区域分别代表了L1和L2约束,Lsaao回归和岭回归都是在约束下的回归,因此最优的参数为椭圆形曲线与菱形和圆形区域相切的点。但是Lasso回归的约束在每个坐标轴上都有拐角,因此当RSS曲线与坐标轴相交时恰好回归系数中的某一个为0,这样就实现了特征提取。反观岭回归的约束是一个圆域,没有尖点,因此与RSS曲线相交的地方一般不会出现在坐标轴上,因此无法让某个特征的系数为0,因此无法做到特征提取。

降维

降维是从高维度向低维度进行投影,采用某种映射方法,即是矩阵乘法的一种几何表达。
最大投影方差的步骤:

  • (i) 中心化: x i − x ‾ x_i-\overline{x} xix
  • (ii) 计算每个点𝑥1,…,𝑥𝑁至 u 1 → \overrightarrow{u_1} u1 方向上的投影: ( x i − x ‾ ) u 1 → , ∣ ∣ u 1 → ∣ ∣ = 1 (x_i-\overline{x})\overrightarrow{u_1},||\overrightarrow{u_1}||=1 (xix)u1 ,u1 =1
  • (iii) 计算投影方差: J = 1 N ∑ i = 1 N [ ( x i − x ‾ ) T u 1 → ] 2 , ∣ ∣ u 1 → ∣ ∣ = 1 J= \frac{1}{N} \sum_{i=1}^N[(x_i-\overline{x})^T\overrightarrow{u_1}]^2,||\overrightarrow{u_1}||=1 J=N1i=1N[(xix)Tu1 ]2,u1 =1
  • (iv) 最大化投影方差求 u 1 → \overrightarrow{u_1} u1
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值