PCA--主成分分析(Principal components analysis)-最小平方误差解释

               
最小平方误差理论

     clip_image001

     假设有这样的二维样本点(红色点),回顾我们前面探讨的是求一条直线,使得样本点投影到直线上的点的方差最大。本质是求直线,那么度量直线求的好不好,不仅仅只有方差最大化的方法。再回想我们最开始学习的线性回归等,目的也是求一个线性函数使得直线能够最佳拟合样本点,那么我们能不能认为最佳的直线就是回归后的直线呢?回归时我们的最小二乘法度量的是样本点到直线的坐标轴距离。比如这个问题中,特征是x,类标签是y。回归时最小二乘法度量的是距离d。如果使用回归方法来度量最佳直线,那么就是直接在原始样本上做回归了,跟特征选择就没什么关系了。

     因此,我们打算选用另外一种评价直线好坏的方法,使用点到直线的距离d’来度量。

     现在有n个样本点clip_image003,每个样本点为m维(这节内容中使用的符号与上面的不太一致,需要重新理解符号的意义)。将样本点clip_image005在直线上的投影记为clip_image007,那么我们就是要最小化

     clip_image009

     这个公式称作最小平方误差(Least Squared Error)。

     而确定一条直线,一般只需要确定一个点,并且确定方向即可。

     第一步确定点:

     假设要在空间中找一点clip_image011来代表这n个样本点,“代表”这个词不是量化的,因此要量化的话,我们就是要找一个m维的点clip_image011[1],使得

     clip_image012

     最小。其中clip_image014是平方错误评价函数(squared-error criterion function),假设m为n个样本点的均值:

     clip_image015

     那么平方错误可以写作:

     clip_image017

     后项与clip_image019无关,看做常量,而clip_image021,因此最小化

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值