清风数学建模学习笔记——主成分分析(PCA)原理详解及案例分析

最新推荐文章于 2025-03-24 16:40:40 发布

Xiu Yan

最新推荐文章于 2025-03-24 16:40:40 发布

阅读量6.4w

点赞数 159

分类专栏：数学建模文章标签： pca降维数学建模

本文链接：https://blog.csdn.net/weixin_43819566/article/details/113800120

版权

数学建模专栏收录该内容

12 篇文章

订阅专栏

主成分分析(PCA)是一种降维算法，通过线性组合原始变量形成互不相关的主成分，保留数据的主要信息。文章介绍了PCA的基本思想、计算步骤，并通过案例分析展示如何选取主成分。PCA常用于数据简化、聚类分析和解决回归中的多重共线性问题，但在解释主成分含义时可能较为模糊。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

主成分分析

本文将介绍主成分分析(PCA)，主成分分析是一种降维算法，它能将多个指标转换为少数几个主成分，这些主成分是原始变量的线性组合，且彼此之间互不相关，其能反映出原始数据的大部分信息。 一般来说，当研究的问题涉及到多变量且变量之间存在很强的相关性时，我们可考虑使用主成分分析的方法来对数据进行简化。

文章目录

一、主成分分析简介

主成分分析可以用较少的新变量替换原来较多的新变量，而且是这些较少的新变量尽可能多地保留原来所反映的信息。
主成分分析是数据降维算法的一种，降维是将高维度的数据（指标太多）保留下最重要的一些特征，去除噪声和不重要的特征，从而实现提升数据处理速度的目的。

二、主成分分析的思想

假设有 $n$ 个样本， $p$ 个指标，则可构成大小为 $n\times p$ 的样本矩阵 $x$ ：

$\begin{bmatrix} x_{11} & x_{12} & \cdots &x_{1p} \\ x_{21}& x_{22} & \cdots &x_{2p} \\ \vdots & \vdots & \ddots & \vdots \\ x_{n1}& x_{n2} & \cdots &x_{np} \end{bmatrix}=(x_1,x_2,\cdots,x_p)$

假设我们想找到新的一组变量 $z_1,z_2,…,z_m( m ≤ p)$ ，且它们满足:
$\begin{cases} z_1=l_{11}x_1+l_{12}x_2+\cdots+l_{1p}x_p\\ z_2=l_{21}x_1+l_{22}x_2+\cdots+l_{2p}x_p\\ \cdots\\ z_m=l_{m1}x_1+l_{m2}x_2+\cdots+l_{mp}x_p \end{cases}$

系数 $l_{ij}$ 的确定原则:

$z_i$ 与 $z_j$ (i≠j; i,j=1,2,…,m) 相互无关;
$z_1$ 是 $x_1,x_2,...,x_p$ 的一切线性组合中方差最大者;
$z_2$ 是与 $z_1$ 不相关的 $x_1,x_2,...,x_p$ 的所有线性组合中方差最大者;
以此类推， $z_m$ 是与 $z_1,z_2,…,z_{m-1}$ 不相关的 $x_1,x_2,...,x_p$ 的所有线性组合中方差最大者;
新变量指标 $z_1,z_2,…,z_m$ 分别称为原变量指标 $x_1,x_2,...,x_p$ 的第一，第二，…，第 $m$ 主成分。

三、主成分分析的计算步骤

假设有 $n$ 个样本， $p$ 个指标，则可构成大小为 $n \times p$ 的样本矩阵 $x$ ：
$\begin{bmatrix} x_{11} & x_{12} & \cdots &x_{1p} \\ x_{21}& x_{22} & \cdots &x_{2p} \\ \vdots & \vdots & \ddots & \vdots \\ x_{n1}& x_{n2} & \cdots &x_{np} \end{bmatrix}=(x_1,x_2,\cdots,x_p)$

1. 首先对其进行标准化处理：
$按列计算均值：\bar x_j=\frac{1}{n} \sum_{i=1}^{n}x_{ij},\quad 标准差：S_j=\sqrt{\frac{\displaystyle\sum_{i=1}^{n}(x_{ij}-\bar x_j)^2}{n-1}},\quad 标准化数据：X_{ij}=\frac{x_{ij}-\bar x_j}{S_j}\\ 原始样本矩阵经过标准化变化： X= \begin{bmatrix} X_{11} & X_{12} & \cdots &X_{1p} \\ X_{21}& X_{22} & \cdots &X_{2p} \\ \vdots & \vdots & \ddots & \vdots \\ X_{n1}& X_{n2} & \cdots &X_{np} \end{bmatrix}=(X_1,X_2,\cdots,X_p)$

2. 计算标准化样本查的协方差矩阵：
$\begin{bmatrix} r_{11} & r_{12} & \cdots &r_{1p} \\ r_{21}& r_{22} & \cdots &r_{2p} \\ \vdots & \vdots & \ddots & \vdots \\ r_{p1}& r_{p2} & \cdots &r_{pp} \end{bmatrix}$ $r_{ij}=\frac{1}{n-1}\sum_{k=1}^{n}{(X_{ki}-\overline X_i)(X_{ki}-\overline X_j)}=\frac{1}{n-1}\sum_{k=1}^{n}{X_{ki}X_{kj}}$

1、2步骤可以合成一步：
$R=\frac{\displaystyle\sum_{k=1}^{n}{(x_{ki}-\overline x_i)(x_{ki}-\overline x_j)}}{\sqrt{\displaystyle\sum_{k=1}^{n}{(x_{ki}-\overline x_i)^2}\sum_{k=1}^{n}{(x_{kj}-\overline x_j)^2}}}$

3. 计算 R 的特征值和特征值向量：
$\lambda_1≥\lambda_2≥\cdots≥\lambda_p≥0,\quad(R是半正定矩阵，且tr(R)=\sum_{k=1}^{p}\lambda_k=p)\\ 特征向量：a_1=\left[ \begin{array}{c} a_{11}\\a_{21}\\ \vdots\\a_{p1} \end{array} \right],a_2=\left[ \begin{array}{c} a_{12}\\a_{22}\\ \vdots\\a_{p2} \end{array} \right],\cdots,a_p=\left[ \begin{array}{c} a_{1p}\\a_{2p}\\ \vdots\\a_{pp} \end{array} \right]$

4. 计算主成分共享率以及累计贡献率：
$贡献率=\frac{\lambda_i}{\displaystyle\sum_{k=1}^{p}{\lambda_k}},\quad累加贡献率=\frac{\displaystyle\sum_{k=1}^{i}{\lambda_k}}{\displaystyle\sum_{k=1}^{p}{\lambda_k}},\quad(i=1,2,\cdots,p)$

5. 写出主成分：

一般取累计贡献率超过 80% 的特征值所对应的第一、第二、…、第 $m$ （ $m \leq p$ ）个主成分。
$第i个主成分：F_i = a_{1i}X_1+a_{2i}X_2+\cdots+a_{pi}X_p$

6. 根据系数分析主成分代表的意义：

对于某个主成分而言，指标前面的系数越大，代表该指标对于该主成分的影响越大。

四、案例分析

题目来源于：《应用多元统计分析》王学民

在制定服装标准的过程中，对128名成年男子的身材进行了测量，每人测得的指标中含有这样六项：身高（ $x_1$ ）、坐高（ $x_2$ ）、胸围（ $x_3$ ）、手臂长（ $x_4$ ）、肋围（ $x_5$ ）和腰围（ $x_6$ ）。所得样本相关系数矩阵（对称矩阵哦）列于下表。
在这里插入图片描述

注意：本题相当于直接把第一二步骤计算好，但是我们在建模的时候得到的是最原始的数据（每一列是指标，每一行是样本）。

经过计算，相关系数矩阵的特征值、相应的特征向量以及贡献率列于下表：

在这里插入图片描述
注意：matlab 求得的特征值向量，默认进行了归一化，验证方法：每一列平方和之后开根号。

从表中可以看到前三个主成分的累计贡献率达85.9%，因此可以考虑只取前面三个主成分，它们能够很好地概括原始变量。
在这里插入图片描述

$X_i$ 均是标准化后的指标， $x_i$ ：身高、坐高、胸围、手臂长、肋围和腰围

第一主成分 $F_1$ 对所有（标准化）原始变量都有近似相等的正载荷，故称第一主成分为（身材）大小成分。
第二主成分 $F_2$ 在 $X_3$ 、 $X_5$ 、 $X_6$ 。上有中等程度的正载荷，而在 $X_1$ 、 $X_2$ 、 $X_4$ 上有中等程度的负载荷，称第二主成分为形状成分（或胖瘦成分）。
第三主成分 $F_3$ 在 $X_2$ 上有大的正载荷，在 $X_4$ 上有大的负载荷，而在其余变量上的载荷都较小，可称第三主成分为臂长成分。