统计 | 投影寻踪回归PPR

最新推荐文章于 2024-07-19 14:22:30 发布

月公子

最新推荐文章于 2024-07-19 14:22:30 发布

阅读量1w

点赞数 10

分类专栏：统计文章标签：统计学

本文链接：https://blog.csdn.net/weixin_44878159/article/details/105581963

版权

投影寻踪回归（PPR）是针对高维、非正态、非线性数据的统计分析方法。该方法通过极值化投影指标，寻找最佳投影方向，将数据降至低维空间进行分析。PPR源于Kruskal在1969年的研究，经过Friedman等人发展，包括投影寻踪回归等扩展。它涉及多种投影指标，如Friedman-Tukey指标、Cook指标等，并广泛应用于遥感、图像识别和经济问题等领域。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、投影寻踪

1、基本思想

传统降维方法：主成分分析（PCA）、独立成分分析（ICA）等，这些方法有一定的前提条件，需要总体服从正态分布。如果不满足正态性假设，可以用稳健方法或非参数的方法解决。

维数祸根（curse of dimensionality）：维数之咒所指的问题是，当维度增加时，空间的体积增加得非常之快（以指数增加），以致于可用的数据变得稀疏。这种稀疏性会造成统计意义上的一些困难，这是因为为了获得一个统计上可靠的结果，支持结果所需的数据量往往随着维度的增加而成倍增长。此外，组织和搜索数据通常依赖于检测具有相似属性的对象的区域，然而，在高维数据中，所有对象在许多方面看起来都是稀疏和不相似的，这使得在数据处理的过程中无法使用通用的数据处理方法（详情）

高维数据不能使用传统降维方法的三个理由：
（1）随着维数增加，计算量迅速增大；
（2）高维会导致“维数祸根”，使得很多传统方法不能有效运用、预测效果变差，也会使得非参数方法的准确度会下降；
（3）高维会使得一些稳健性方法效果变差。
传统方法对高维、非正态、非线性数据难收到好的效果，PP方法应运而生。
投影寻踪（Projection Pursuit,简称PP）是处理分析高维数据的一种方法。通过极值化选定的投影指标，寻找最能反映数据特征的投影方向，将高维数据投影到低维空间，进行分析。

2、发展历史

投影寻踪的发展历史：

1969年，Kruscal首先使用投影寻踪方法，极大化了一个数据聚类程度指标，将高维数据降到了低维空间,发现了数据的聚类结构，。
1974年，Friedman和Tukey用一维散度和局部密度的乘积构造了一类新的投影指标，用来进行一维或二维的聚类和分类。首次将此方法命名为Projection Pursuit。至此，投影寻踪还是作为数值计算方法出现的，仅限于判别和聚类分析。
1981年，Friedman和Stuetjer将投影寻踪的思想推广，提出投影寻踪回归。
1983年，Jones提出基于数据的矩投影指标。
1984年，Friedman、Stuetjle和Schroeder给出投影寻踪密度估计。
1985年，Huber教授发表一篇投影寻踪方面的论文，总结了投影寻踪指标设计等方面的内容，很有影响力。在他的影响下，我国教授李国英以及Donoho进行了相关研究，在国际上具有影响。

投影寻踪指标的发展历史：

1987年，Friedman提出以正态分布的差异为度量的投影指标。
同年，Jones和Sibson提出熵指标。
1989年，Hall提出Hall指标，并讨论了投影指标的收敛性问题。
1990年，Posse基于 $\chi^2$ 距离和多参数随机搜索，提出了一种Posse指标。
1992年，Nasson提出，在少数异常点下，要找出数据的聚类结构，用t分布替换正态分布会得到更好的结果，构造了t投影指标，并介绍了稳健投影指标的构造问题。
1993年，Cook等将Friedman和Hall指标推广为更一般化的指标，Cook指标。
2000年，Nason提出几类稳健投影指标，在异常点存在的情况下，仍能找出合适的聚类结构。
2004年，Lee在线性判别的基础上，提出一个用于有监督分类的新的投影指标。
2005年，Krause和Liebscher为找出多峰分布的投影，构造了Dip检验作为投影指标

投影寻踪的应用

1991年，Nason将投影寻踪方法应用于多光谱遥感数据的分析。
1994年，Hwang等将投影寻踪和人工神经网络结合，构成了投影寻踪学习网络，成功应用于非线性函数逼近和函数的平滑。
1995年，Bachmann等首次将BCM模型与投影寻踪结合起来，构成BCM投影寻踪网络，成功应用于遥感图像的云彩识别问题。
2001年，Chiang利用投影寻踪对高光谱图像进行了无监督目标检测。
2002年，Kourtellos把投影寻踪应用到处理经济问题上。

3、投影指标的构建

一维投影指标：
$I(\hat{k})=s(\hat{k}) \cdot d(\hat{k})$

$I(\hat{k})$ 是投影指标，
$s(\hat{k})$ 是投影值的标准差，反应类间距离：
$s(\hat{k})=\sqrt{\sum_{i=p N}^{(1-p) N} \frac{\left(\vec{x}_{i} \cdot \hat{k}-\bar{x}_{k}\right)^{2}}{(1-2 p) N}}$ ，其中 $\bar{x}_{k}=\sum_{i=p N}^{(1-p) N} \frac{\vec{x}_{i} \cdot \hat{k}}{(1-2 p) N}$
其中，N：数据的样本个数； $x_{i}$ (i=1,…N)：样本点向量，按照他们的投影值排序；p：部分投影值极端的点被从求和中忽略（一共p*N个点）；
$d(\hat{k})$ 是在投影方向 $\hat{k}$ 下，投影值的局部密度，反映类内距离：
$d(\hat{k})=\sum_{i=l}^{N} \sum_{j=l}^{N} f\left(r_{i j}\right) l\left(R-r_{i j}\right)$ ， $r_{i j}=\left|\vec{x}_{i} \cdot \hat{k}-\vec{x}_{j} \cdot \hat{k}\right|$

最低0.47元/天解锁文章