人脸识别之PCA 和 LDA

最新推荐文章于 2024-07-17 23:24:48 发布

leo_fighting

最新推荐文章于 2024-07-17 23:24:48 发布

阅读量3.6k

点赞数 1

分类专栏： AI 文章标签：脸部识别

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhangliaobet/article/details/78315879

版权

AI 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

一.PCA

1.理论基础（1）

在信号处理中认为信号具有较大的方差，噪声有较小的方差，信噪比就是信号与噪声的方差比，

越大越好。因此我们认为，最好的k维特征是将n维样本点转换为k维后，每一维上的样本方差都很大。

结论：对协方差矩阵进行特征值分解，得到的前k大特征值对应的特征向量就是最佳的k维新特征，而且这k维新特征是正交的

2.理论基础（2）

最小平方误差理论：参见：http://www.cnblogs.com/jerrylead/archive/2011/04/18/2020216.html

3.PCA流程

第一步:对上述二维数据分别求x和y的平均值，然后对于所有的样例，都减去对应的均值。这里x的均值是1.81，y的均值是1.91，那么第一个样例减去均值后即为（0.69,0.49）

第二步，求特征协方差矩阵

第三步，求协方差的特征值和特征向量

第四步，将特征值按照从大到小的顺序排序，选择其中最大的k个，然后将其对应的k个特征向量分别作为列向量组成特征向量矩阵

第五步，将样本点投影到选取的特征向量上。假设样例数为m，特征数为n，
减去均值后的样本矩阵为DataAdjust(m*n)，协方差矩阵是n*n，选取的k个特征向量组成的矩阵为EigenVectors(n*k)。那么投影后的数据FinalData为

FinalData(m*k) = DataAdjust(m*n) * EigenVectors(n*k)

二.LDA

PCA ---无监督学习，数据没标号；LDA---监督学习，数据有标号
问题：给定特征为d维的N个样例{x1,x2,x3....xn},其中有n1个属于w1类，n2个属于w2类，寻找一直线，使得样例在该直线的投影后，能比较容易分类.

y = wT * x (T表示w的转置)

每类样例的均值（中心点）

由x到w投影后的样本点均值为

能够使投影后的两类样本中心点尽量分离的直线是好的直线，其中J(w)越大越好

仅仅使得J(W)大还不够，对投影后的类求散度值，

其几何意义是样本点的密集程度，值越大，越分散，反之，越集中。不同类别的样本点越分开越好，同类的越聚集越好，也就是均值差越大越好，散度值越小越好。

对散度值展开

散度矩阵（scatter matrices）

类内散度矩阵（Within-class scatter matrix）

类间散度

目标函数是求使得类间散度与类内散度的比值最大的投影空间

当Sw非奇异时

求投影向量

假设有C个类别，需要K维向量（或者叫做基向量）来做投影。即求线性投影子空间 W = [w1|w2|...wk]

整体求解流程：

投影子空间W为

PCA选择样本点投影具有最大方差的方向，LDA选择分类性能最好的方向

LDA的限制
1、 LDA至多可生成C-1维子空间
LDA降维后的维度区间在[1,C-1]，与原始特征数n无关，对于二值分类，最多投影到1维。
2、 LDA不适合对非高斯分布样本进行降维。

3、 LDA在样本分类信息依赖方差而不是均值时，效果不好。

样本点依靠方差信息进行分类，而不是均值信息。LDA不能够进行有效分类，因为LDA过度依靠均值信息。

4、 LDA可能过度拟合数据。

example:

关注

1
点赞
踩
19

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

leo_fighting CSDN认证博客专家 CSDN认证企业博客

码龄10年

44: 原创

7万+: 周排名

101万+: 总排名

21万+: 访问

: 等级

2343: 积分

91: 粉丝

103: 获赞

13: 评论

384: 收藏

私信

关注

热门文章

分类专栏

leetcode
机器学习 12篇
AI 5篇
Pattern Recongination 2篇
算法 6篇
DSA
OPENCV 2篇
Object Detection 7篇
math 1篇
CUDA
Caffe 1篇
论文 6篇
C++ 5篇
深度学习 9篇

最新评论

caffe中卷积的实现,参数计算,FLOPS计算
不断冲的Castor: 内容很系统细致，不过兄弟你可能typo了，根据你的内容，第四模块应该是FLOPs(floating point operations)浮点运算量，而不是FLOPS(floating point operations per second)，
C++ explicit关键字详解
CSDN-Ada助手: 非常感谢你的分享，这篇博客对于理解C++的explicit关键字非常有帮助。我觉得下一篇博客可以深入探讨C++中的多态性，特别是虚函数和纯虚函数的应用。这样的技术文章对其他用户也非常有帮助，希望你可以继续分享你的经验和见解。相信会有更多读者受益于你的分享。为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
Matlab绘图
野蛮薄荷: 你好，你是如何实现matlab代码的高亮的？CSDN不是不支持matlab高亮吗
使用numpy实现NMS
chenyuanxu: 我觉得，可能随意吧，毕竟框是占一个像素的，看要不要把框给放进来？
第十讲：贝叶斯学习与EM算法（上）
鸟听风啸: 感谢有头绪了

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。