预处理数据的方法总结(使用sklearn-preprocessing): https://blog.csdn.net/sinat_33761963/article/details/53433799
向量点乘(内积)和叉乘(外积、向量积)概念及几何意义解读:https://blog.csdn.net/dcrmg/article/details/52416832
主成分分析(PCA)原理详解:http://blog.csdn.net/zhongkelee/article/details/44064401
最大方差理论
在信号处理中认为信号具有较大的方差,噪声有较小的方差,信噪比就是信号与噪声的方差比,越大越好。如前面的图,样本在u1上的投影方差较大,在u2上的投影方差较小,那么可认为u2上的投影是由噪声引起的。
因此我们认为,最好的k维特征是将n维样本点转换为k维后,每一维上的样本方差都很大。
比如我们将下图中的5个点投影到某一维上,这里用一条过原点的直线表示(数据已经中心化):
假设我们选择两条不同的直线做投影,那么左右两条中哪个好呢?根据我们之前的方差最大化理论,左边的好,因为投影后的样本点之间方差最大(也可以说是投影的绝对值之和最大)。
计算投影的方法见下图5:
图中,红色点表示样例,蓝色点表示在u上的投影,u是直线的斜率也是直线的方向向量,而且是单位向量。蓝色点是在u上的投影点,离原点的距离是<x,u>(即xTu或者uTx)。
==》使样本的每个维度均值都是0
==》此处的x是已经-x 均值的 x xi已经映射到了新的坐标轴 轴是斜的
=》使得映射后的样本方差最大
==》技巧谁相加把谁拆开
推导的过程中一定要注意:
谁是矩阵 谁是向量
向量的化是行向量 还是列向量
矩阵的话 几行几列 样本在行还是在列
==》改进 取多个主成分
把数据中第一主成分 减去 数据中剩的是 除了第一主成分以外的成分
高维==》低维
低维==》高维
维度 与 数据留存百分比 可控 ==》不知道 取多少主成分 但要保证95%以上的方差
从n_components 中看到 要保存95%方差的信息 要取 28个主成分
(手写识别字一共64个特征 对原始数据进行降维后再进行分类)
降维后精度会有减小 时间也会减小 可以控制一定的数据量
数据去燥:
将二维数据 取第一个重要维度 将数据降维
再将降维的数据转为原来维度的数据 此时损失的数据即为噪声数据
每一行w 在人脸识别中代表 特征脸