【数学建模】评价模型——主成分分析 PCA SPSS实现、Python实现

CodeLuweir

已于 2022-11-17 11:07:08 修改

阅读量1.1w

点赞数 22

分类专栏：数学建模计量统计文章标签：数据分析数学建模 SPSS PCA

于 2021-04-14 20:03:00 首次发布

本文链接：https://blog.csdn.net/wyll19980812/article/details/115702800

版权

计量统计同时被 2 个专栏收录

5 篇文章

订阅专栏

数学建模

3 篇文章

订阅专栏

关键词：【主成分分析】【SPSS】【Python】
在这里插入图片描述

PCA介绍

主成分分析（Principal Component Analysis，PCA）：利用降维的方法，把多指标转化为几个综合指标的多元统计方法；

实际问题中，为了全面分析问题，往往提出很多与此有关的变量（因素），每个变量在不同程度上包含了结果的部分信息；

主成分：由原始指标进行线性组合形成的几个新指标，用这几个新指标尽可能地去解释原来指标包含的大部分信息；

比如：一个对国民经济的研究，经过主成分分析后，用三个新变量能够代替原来的17个变量，并且保持97.4%的精度；

主成分与原始变量的关系：

主成分保留了原始变量绝大多数信息；
主成分的个数大大少于原始变量的数目；
各个主成分之间互不相关；
每个主成分都是原始变量的线性组合；

一般来说，代表原来m个变量的主成分不止一个，但不同主成分的信息不能相互包含，统计上的描述就是：两个主成分的协方差为0，几何上就是两个主成分正交；

SPSS实现

步骤：
SPSS导入数据 -> 分析 -> 降维 -> 因子分析；
描述 -> 系数；
抽取 -> 碎石图；
得分 -> 显示因子得分系数矩阵；

量纲

主成分分析的结果受量纲的影响，由于各变量的单位可能不同，结果也不同；这是最大的问题，所以主成分分析之前都需要对个变量进行无量纲化处理，然后用协方差 or 相关系数矩阵进行分析；SPSS在分析之前自带无量纲化处理了；

无量纲化处理一般分两种：
(1) 归一化
其一：min-max归一化 => $x'=\frac{x-min(x)}{max(x)-min(x)}$
其二：平均归一化 => $x'=\frac{x-mean(x)}{max(x)-min(x)}$
(2) 标准化
$x'=\frac{x-mean(x)}{\sigma}(\sigma为标准差)$

SPSS手动无量纲化（标准化）：分析 -> 描述统计 -> 描述 -> 勾选"将标准化得分另存为变量"
在这里插入图片描述

相关性矩阵
总方差解释
碎石图
求指标对应系数

方法一：利用成分矩阵+解释总方差求得
在这里插入图片描述
Fn前面的系数就是拿 Fn的贡献率/(F1和F2的累计贡献率)；比如F1前面的系数：(72.2/84.5)；

方法二：利用成分得分系数矩阵（简单但不建议）
在这里插入图片描述
计算综合评价值 F=W1F1+W2F2； Wi 为第 i 主成分的贡献率；

比如方法一代入后最终结果如下：
在这里插入图片描述
比如方法二代入后最终结果如下：

python实现

简单的主成分分析

sklearn.decomposition模块的PCA函数sklearn.decomposition.PCA(n_components=None,copy=True)

n_components：缺省默认为None，所有成分被保留；若设为2，则提取2个主成分，若为0.85，则自动选择主成分，使满足累计贡献率85%；
copy：缺省默认为True，表示运行算法时，将原始数据复制一份进行分析；若为false，则在原始数据上进行降维计算；

步骤：

对数据矩阵A进行标准化得到B；
计算相关系数矩阵np.corrcoef(B.T)；
计算相关系数矩阵R的特征值 λ1>λ2>…>λm ，以及对于的标准正交化特征向量 u1,u2…um，向量是按列的；利用特征变量得到主成分变量表达式 F1 = u₁₁x₁’+u₂₁x₂’…+u_m1y_m，F2=…；
计算主成分贡献率和累计贡献率，一般取累计贡献率达到85%以上的主成分就行
利用得到的主成分F1，F2，…Fk分析问题，进行评价；

案例：
在这里插入图片描述

import numpy as np
from sklearn.decomposition import PCA

a = np.loadtxt("Pdata11_7.txt")
b = np.r_[a[:, 1:4], a[:, -3:]]  # 构造数据矩阵
print("相关系数矩阵：", np.around(np.corrcoef(b.T), decimals=3))  # 数据标准化并计算相关系数矩阵，并保留三位小数

md = PCA(n_components=0.85).fit(b)  # 构造并训练模型(累计贡献率>85%即可)

print("特征值为：", md.explained_variance_)
print("各主成分的贡献率：", md.explained_variance_ratio_)
print("奇异值为：", md.singular_values_)
print("各主成分的系数：\n", md.components_)  # 每行是一个主成分
"""下面直接计算特征值和特征向量，和库函数进行对比"""
cf = np.cov(b.T)  # 计算协方差阵
c, d = np.linalg.eig(cf)  # 求特征值和特征向量
print("特征值为：", c)
print("特征向量为：\n", d)
print("各主成分的贡献率为：", c / np.sum(c))

在这里插入图片描述
分析评价：

主成分分析用于综合评价

主成分分析可应用于诸多评价领域，诸如投资组合风险管理、企业效益的综合分析、图像特征识别等；将主成分分析于聚类分析、判别分析以及回归分析方法相结合；
一般步骤：

若各指标的属性不同（成本型、利润型等），将原矩阵A标准化为B；
计算B的相关系数矩阵R；
计算 R 的特征值 λ 以及相应的特征向量 u；
根据特征值计算累计贡献率，确定主成分的个数，而特征向量 ui 就是第 i 主成分的系数向量；
计算主成分的得分矩阵，若选定 K 个主成分，则主成分得分矩阵为 F = B ·[u1,u2,···，uk]；
计算综合评价值 Z=FW，其中 W 是第 i 主成分的贡献率（占总主成分贡献率的多少）；根据综合评价值进行排序，若为效益型指标，则评价值越大排名越靠前；若为成本型指标值，则评价越小排名越靠前；

对于下列案例：
在这里插入图片描述

import numpy as np
from scipy.stats import zscore

a = np.loadtxt("Pdata11_8.txt")
print("相关系数阵为：\n", np.corrcoef(a.T))
b = np.delete(a, 0, axis=1)  # 删除第1列数据
c = zscore(b)
r = np.corrcoef(c.T)  # 数据标准化并计算相关系数阵
d, e = np.linalg.eig(r)  # 求特征值和特征向量
rate = d / d.sum()  # 计算各主成分的贡献率
print("特征值为：", d)
print("特征向量为：\n", e)
print("各主成分的贡献率为：", rate)
k = 1  # 提出主成分的个数
F = e[:, :k]
score_mat = c.dot(F)  # 计算主成分得分矩阵
score1 = score_mat.dot(rate[0:k])  # 计算各评价对象的得分
score2 = -score1  # 通过表中数据以及score1观测，需要调整得分的正负号
print("各评价对象的得分为：", score2)
index = score1.argsort() + 1  # 排序后的每个元素在原数组中的位置
print("从高到低各个城市的编号排序为：", index)