主成分分析(PCA)

预处理数据的方法总结(使用sklearn-preprocessing): https://blog.csdn.net/sinat_33761963/article/details/53433799

向量点乘(内积)和叉乘(外积、向量积)概念及几何意义解读:https://blog.csdn.net/dcrmg/article/details/52416832

主成分分析(PCA)原理详解:http://blog.csdn.net/zhongkelee/article/details/44064401

 

 

最大方差理论
      在信号处理中认为信号具有较大的方差噪声有较小的方差,信噪比就是信号与噪声的方差比,越大越好。如前面的图,样本在u1上的投影方差较大,在u2上的投影方差较小,那么可认为u2上的投影是由噪声引起的。

     因此我们认为,最好的k维特征是将n维样本点转换为k维后,每一维上的样本方差都很大

     比如我们将下图中的5个点投影到某一维上,这里用一条过原点的直线表示(数据已经中心化):

    假设我们选择两条不同的直线做投影,那么左右两条中哪个好呢?根据我们之前的方差最大化理论,左边的好,因为投影后的样本点之间方差最大(也可以说是投影的绝对值之和最大)。

     计算投影的方法见下图5:

       图中,红色点表示样例,蓝色点表示在u上的投影,u是直线的斜率也是直线的方向向量,而且是单位向量。蓝色点是在u上的投影点,离原点的距离是<x,u>(即xTu或者uTx)。

 

 

 

 

     ==》使样本的每个维度均值都是0

==》此处的x是已经-x  均值的  x   xi已经映射到了新的坐标轴    轴是斜的

 


             =》使得映射后的样本方差最大

 

 

==》技巧谁相加把谁拆开

 

 

推导的过程中一定要注意:

谁是矩阵 谁是向量  

向量的化是行向量 还是列向量

矩阵的话        几行几列        样本在行还是在列  

 

 

 

 

==》改进  取多个主成分

把数据中第一主成分 减去  数据中剩的是 除了第一主成分以外的成分

 

   高维==》低维

低维==》高维

 

维度 与 数据留存百分比 可控  ==》不知道 取多少主成分  但要保证95%以上的方差

 

 

从n_components  中看到  要保存95%方差的信息  要取 28个主成分

(手写识别字一共64个特征   对原始数据进行降维后再进行分类)

降维后精度会有减小  时间也会减小  可以控制一定的数据量

 

 

数据去燥:

将二维数据 取第一个重要维度    将数据降维   

再将降维的数据转为原来维度的数据  此时损失的数据即为噪声数据

 

 

每一行w  在人脸识别中代表  特征脸

 

 

 

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值