R语言与主成分分析

最新推荐文章于 2024-04-25 23:53:24 发布

Ethan_pika

最新推荐文章于 2024-04-25 23:53:24 发布

阅读量7.1k

点赞数 14

分类专栏： R语言与机器学习文章标签：机器学习 R

本文链接：https://blog.csdn.net/yitian_z/article/details/103097418

版权

R语言与机器学习专栏收录该内容

16 篇文章 26 订阅

订阅专栏

主成分分析实例

例 9.1 （中学生身体四项指标的主成分分析）

在某中学随机抽取某个年纪30名学生，测量其身高（X1）、体重（X2）、胸围（X3）和坐高（X4），数据如表9.1所示。试对这30名中学生身体四项指标数据做主成分分析。

解析：用数据框的形式输入数据。用princomp()作主成分分析，由前面的分析，选择相关矩阵做主成分分析更合理。因此，这里选择的参数为cor=TRUE。最后用summary()列出主成分分析的值，这里选择loadings=TRUE。以下是相应的程序。

用数据框形式输入数据，做主成分分析，并显示分析结果：

summary()函数列出了主成分分析的重要信息：

Standard deviation：表示主成分的标准差，即主成分的方差的开方，也就是相应的特征值的开方
Proportion of Variance：表示的是方差的贡献率
Cumulative Proportion：表示的是方差的累计贡献率

由于在summary函数的参数中选取了loadings=TRUE，因此列出了loadings（载荷）的内容，它实际上是主成分对应于原始变量X1， X2， X3， X4的系数，即前面介绍的矩阵Q。因此得到：

由于前面两个主成分的累计贡献率已达到96%，另外两个主成分可以舍去，达到降维的目的。

第一主成分对应系数的符号都相同，其值在0.5左右，它反映了中学生身材魁梧程度：身材高大是学生，他的四个部分的尺寸都比较大，因此，第一主成分的值就比较小（因为系数均为负数）；而身材矮小是学生，他的四个部分的尺寸都比较小，因此，第一主成分的绝对值就较大。我们成第一主成分为大小因子。第二主成分是高度和围度的差，第二主成分值大的学生表明该学生“细高”，而第二主成分值越小的学生表明该学生“矮胖”，因此第二主成分为体型因子。

我们看一下各样本的主成分的值（用predict()函数）：

从第一主成分来看，较小的几个值是25号样本、3号样本和5号样本，因此说明这个几个学生身材魁梧。而11号样本、15号样本和29号样本的值较大，说明这几个学生的身材瘦小。

从第二主成分来看，较大的几个值是23号样本、19号样本和4号样本，因此说明这几个学生属于“细高”型；而17号样本、8号样本和2号样本的值较小，说明这几个学生的身材属于“矮胖”型。

画出主成分的碎石图：

还可以画出关于第一主成分和第二主成分样本的散点图，其图形如下所示：

问题：中间的四条箭头的线的作用是什么？？？？

主成分分析的应用

1. 主成分分类

例 9.2 对128个成年男子的身材进行测量，每人各测得16项指标：身高（X1），坐高（X2），胸围（X3），头高（X4），裤长（X5），下档（X6），手长（X7），领围（X8），前胸（X9），后背（X10），肩厚（X11），肩宽（X12），袖长（X13），肋围（X14），腰围（X15）和腿肚（X16）。16项指标的相关矩阵R如表9.2所示（由于相关矩阵是对称的，只给出下三角部分）。试从相关矩阵R出发进行主成分分析，对16项指标进行分类。