我们在进行数据分析时,往往会发现数据具有很多种属性,比如某类型饼干的口味、加工方式、保质期、价格、购买人群等等。每一种属性就代表该数据在某一维度上的数值。多维度的数据无疑会增加数据的准确性与可靠性,但也给我们的计算带来麻烦。
主成分分析(Principal Component Analysis,PCA)是一种常用的数据分析方法,通常用于提取数据的主要特征分量,从而完成对高维数据进行降维的过程。
PCA对数据的降维不是简单的维度挑选,而是将m维的数据映射到n维上(n<m),并且保证得到的n维数据仍能准确表示原数据特征。
例如现在我们的数据如下图所示,x1,x2代表原数据的两个维度。这时候我们看图像,也不好说x1,x2哪个特性更能代表数据特征。
我们再一看,好像原数据也可以用y1&#x