(无监督数据降维)主成分分析法 - PCA

本文介绍了主成分分析法(PCA)的数学原理和使用方法。通过示例展示了PCA如何用于数字识别数据的降维,并结合kNN算法评估不同维度下模型的准确性。在降维过程中,探讨了特征可信度与维度的关系,指出当保留95%的可信度时,需要29个维度,这显著提高了预测精度。最后,展示2维数据已足够区分某些类别。
摘要由CSDN通过智能技术生成


SKlearn官网 - sklearn.decomposition.PCA

一,数学原理

参考:通俗易懂的主成分分析法(PCA)详解

二,PCA的使用

class sklearn.decomposition.PCA(n_components=None, *, 
	copy=True, whiten=False, svd_solver='auto', tol=0.0, 
	iterated_power='auto', random_state=None)

1,参数

n_components:intfloatNone or str
			  当其大于1,且为正数时:需要保留的维度
			  当0 < n_components < 1时:需要保留原数据可解释的度的百分之几	
	
copy:bool, default=True
	  如果为False,则传递给fit的数据将被覆盖,并且运行
	  fit(X).transform(X)将不会产生预期的结果,请改用
	  fit_transform(X)。

whiten:bool, 可选(default False)
		如果为True(默认情况下为False),则将components_矢量
		乘以n_samples的平方根,然后除以奇异值,以确保具有单位
		分量方差的不相关输出。

		泛白会从转换后的信号中删除一些信息(组件的相对方差标
		度),但有时可以通过使下游估算器的数据符合某些硬性假设
		来提高下游估算器的预测准确性。

2,属性(方法)

components_:array, shape (n_components, n_features)
			 特征空间中的主轴,表示数据中最大方差的方向。组件
			 按排序 explained_variance_。

explained_variance_:array, shape (n_components,)
					 每个选定组件说明的方差量。
					 等于X的协方差矩阵的n_components个最大特征值。

explained_variance_ratio_:array, shape (n_components,)
						   每个选定组件解释的方差百分比。
						   如果n_components未设置,则将存储
						   所有分量,并且比率之和等于1.0。

singular_values_:array, shape (n_components,)
				  对应于每个选定组件的奇异值。奇异值等于
				  n_components 低维空间中变量的2范数。

mean_:array, shape (n_features,)
	   根据训练集估算的每特征经验均值。
	   等于X.mean(axis=0)。

n_components_:int
			   估计的组件数。
			   当n_components设置为'mle'
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值