一、概述
1.定义
主成分分析(Principal Component Analysis,PCA),将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法。
2.背景
一项十分著名的工作是美国的统计学家斯通(stone)在 1947年关于国民经济的研究。他曾利用美国1929一1938 年各年的数据,得到了17个反映国民收入与支出的变量 要素,例如雇主补贴、消费资料和生产资料、纯公共支 出、净增库存、股息、利息外贸平衡等等。 在进行主成分分析后,竟以97.4%的精度,用三新变量 就取代了原17个变量。根据经济学知识,斯通给这三个 新变量分别命名为总收入F1、总收入变化率F2和经济发 展或衰退的趋势F3。3.主成分与原始变量之间的关系
(1)主成分保留了原始变量绝大多数信息。(2)主成分的个数大大少于原始变量的数目。
(3)各个主成分之间互不相关。
(4)每个主成分都是原始变量的线性组合。
4.深入理解
假设原始数据有n个指标,把n个指标看作X1,X2....Xn n个随机数,我们对p个指标进行线性组合,组合生成的远小于n个新指标,保留主要信息量反应原指标信息,并且相互独立。在数学上这个过程我们叫做降维。二、操作实例(使用spss软件)
1.导入数据
2.分析-->降维-->因子分析-->所有因子都导入到变量中-->表述(勾选系数)-->抽取(勾选碎石图片)-->得分(显示因子得分系数矩阵)-->点击确定
3.数据结果分析(用体表数据说话)
相关性矩阵 | ||||||
GDP | 人均GDP | 农业增加值 | 工业增加值 | 第三产业增加值 | ||
相关性 | GDP | 1.000 | -.094 | -.052 | .967 | .979 |
人均GDP | -.094 | 1.000 | -.171 | .113 | .074 | |
农业增加值 | -.052 | -.171 | 1.000 | -.132 | -.050 | |
工业增加值 | .967 | .113 | -.132 | 1.000 | .985 | |
第三产业增加值 | .979 | .074 | -.050 | .985 | 1.000 | |
固定资产投资 | .923 | .214 | -.098 | .963 | .973 | |
基本建设投资 | .922 | .093 | -.176 | .939 | .940 | |
社会消费品零售总额 | .941 | -.043 | .013 | .935 | .962 | |
海关出口总额 | .637 | .081 | -.125 | .705 | .714 | |
地方财政收入 | .826 | .273 | -.086 | .898 | .913 |
相关性矩阵 | |||||
固定资产投资 | 基本建设投资 | 社会消费品零售总额 | 海关出口总额 | ||
相关性 | GDP | .923 | .922 | .941 | .637 |
人均GDP | .214 | .093 | -.043 | .081 | |
农业增加值 | -.098 | -.176 | .013 | -.125 | |
工业增加值 | .963 | .939 | .935 | .705 | |
第三产业增加值 | .973 | .940 | .962 | .714 | |
固定资产投资 | 1.000 | .971 | .937 | .717 | |
基本建设投资 | .971 | 1.000 | .897 | .624 | |
社会消费品零售总额 | .937 | .897 | 1.000 | .836 | |
海关出口总额 | .717 | .624 | .836 | 1.000 | |
地方财政收入 | .934 | .848 | .929 | .882 |
相关性矩阵 | ||
地方财政收入 | ||
相关性 | GDP | .826 |
人均GDP | .273 | |
农业增加值 | -.086 | |
工业增加值 | .898 | |
第三产业增加值 | .913 | |
固定资产投资 | .934 | |
基本建设投资 | .848 | |
社会消费品零售总额 | .929 | |
海关出口总额 | .882 | |
地方财政收入 | 1.000 |
总方差解释 | ||||||
成分 | 初始特征值 | 提取载荷平方和 | ||||
总计 | 方差百分比 | 累积 % | 总计 | 方差百分比 | 累积 % | |
1 | 7.220 | 72.205 | 72.205 | 7.220 | 72.205 | 72.205 |
2 | 1.235 | 12.346 | 84.551 | 1.235 | 12.346 | 84.551 |
3 | .877 | 8.769 | 93.319 | |||
4 | .547 | 5.466 | 98.786 | |||
5 | .085 | .854 | 99.640 | |||
6 | .021 | .211 | 99.850 | |||
7 | .012 | .119 | 99.970 | |||
8 | .002 | .018 | 99.988 | |||
9 | .001 | .012 | 100.000 | |||
10 | -1.098E-16 | -1.098E-15 | 100.000 |