PCA主成分分析法概论

PCA(主成分分析)是一种降维技术,用于处理多变量数据集,减少冗余信息并保留主要特征。PCA通过找到数据中方差最大的方向构建新的正交特征,以减少维度并提高数据的可解释性和模型效率。PCA常用于去除数据噪声,提高模型精度,减少计算成本,防止过拟合,并在人脸识别等领域有广泛应用。
摘要由CSDN通过智能技术生成

1.PCA算法的研究背景
在许多领域的研究与应用中,通常需要对含有多个变量的数据进行观测,收集大量数据后进行分析寻找规律。多变量大数据集无疑会为研究和应用提供丰富的信息,但是也在一定程度上增加了数据采集的工作量。更重要的是在很多情形下,许多变量之间可能存在相关性,从而增加了问题分析的复杂性。如果分别对每个指标进行分析,分析往往是孤立的,不能完全利用数据中的信息,因此盲目减少指标会损失很多有用的信息,从而产生错误的结论。
因此需要找到一种合理的方法,在减少需要分析的指标同时,尽量减少原指标包含信息的损失,以达到对所收集数据进行全面分析的目的。由于各变量之间存在一定的相关关系,因此可以考虑将关系紧密的变量变成尽可能少的新变量,使这些新变量是两两不相关的,那么就可以用较少的综合指标分别代表存在于各个变量中的各类信息。PCA主成分分析与因子分析就属于这类降维算法。
2.PCA概念
在百度百科上,关于PCA的定义是这样的:PCA(principal components analysis)即主成分分析技术,又称主分量分析。主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。简单而又直接。
在我的理解里,在我们面对大量数据,我们需要总结它,但数据中存在着大量的冗余信息,所以我们要找到其中的主要特性和关联特性来对数据进行降维。举个例子来讲,现在我们需要买房子,而房价是由很多因素影响着的,比如:面积、附近商场数量、楼层、市中心距离等等。而这些特征内部可能就存在关联性,比如说市中心距离与附近商场数量就存在着正相关,在这种情况下,这两个特征就可以变成一个特征,从而实现降维。
这是对PCA算法的一种抽象理解,而其具体的理论思想在于将n维特征映射到k维上,这k维是全新的正交特征也被称为主成分,是在原有n维特征的基础上重新构造出来的k维特征。PCA的工作就是从原始的空间中顺序地找一组相互正交的坐标轴,新的坐标轴的选择与数据本身是密切相关的。其中,第一个新坐标轴选择是原始数据中方差最大的方向,第二个新坐标轴选取是与第一个坐标轴正交的平面中使得方差最大的,第三个轴是与第1,2个轴正交的平面中方差最大的。依次类推,可以得到n个这样的坐标轴。通过这种方式获得的新的坐标轴,我们发现,大部分方差都包含在前面k个坐标轴中,后面的坐标轴所含的方差几乎为0。于是,我们可以忽略余下的坐标轴,只保留前面k个含有绝大部分方差的坐标轴。事实上,这相当于只保留包含绝大部分方差的维度特征,而忽略包含方差几乎为0的特征维度,实现对数据特征的降维处理。
3.特征降维的优点
1.去除数据中的冗余特征以及噪声特征信息,有助于提高数据分类的精度,预测也更加准确。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值