- 实验目的及要求:
- 学会主成分分析的建模方法;
- 学会借助R软件进行基本的数据建模分析。
- 实验仪器:
Windows10系统,R Studio软件等。
- 实验原理:
主成分分析是一种降维技术,简单的说就是将数据中的多个变量,化为几个主要的变量反映原本数据中的绝大部分信息。
在工作中,我们常常遇到一些多维数据(即一组数据中存在多个变量、属性,或者说需要用多个变量、字段、属性去表示一组数据)。明显,数据中用到的维度越少,越便于我们的工作和研究。所以这时,我们就需要用到主成分分析,将原本多维的数据变化为低维数据。
主成分分析步骤:
1)对原始数据标准化处理(0均值化处理)
2)计算样本相关系数矩阵(或协方差矩阵)
3)计算协方差矩阵的特征值和特征向量、
4)选择重要的主成分,并写出主成分表达式。选择多少个主成分,主要是依据方差累积贡献率来进行的。一般情况上,选择累积贡献率(Gm)大于85%的部分。
5)计算主成分载荷,主成分载荷是反映主成分Yi 与原变量 Xj之间的相互关联程度。
6)计算主成分得分,根据主成分得分的数据,做进一步的统计分析。
- 实验方法:
主成分分析的应用十分广泛,在商业中被用来对高维的数据集口模型降维达到简化计算和模型的目的,常见的案例有业务员综合能力评估、地区发展综合评估等等。这些案例往往涉及很多的评价指标这时候就需要进行数据降维,用较少的几个新变量代替原本的变量而尽可能保留原有信息,计算出综合得分,进而给出综合评价结果。本文收集了2019年31个省市的各领域人均消费数据,并针对这些数据进行主成分分析,进一步实现降维的目标。
- 实验过程:
31个省市各指标部分数据:
表1 变量描述
变量 |
描述 |
Food |
食品 |
clothes |
衣着 |
facility |
家庭设备用品及服务 |
healthcare |
医疗保健 |
transport |
交通和通讯 |
entertainment |
娱乐教育文化服务 |
residence |
居住 |
others |
杂项商品和服务 |