数学建模——降维算法

降维

降维的意义

  • 降低无效、错误数据对建模的影响,提高建模的准确性
  • 少量切具有代表性的数据将大幅缩减挖掘所需的时间
  • 降低存储数据的成本

需要降维的情况

  • 维度灾难。很难有一个简洁的模型在高维空间中依旧具有鲁棒性,而随着模型复杂度的增加,为保证结果同样的精度和准确性,所需要的数据也需要极大增加,而高维空间的数据本身具备稀疏性,可想而知如果真要这么做,需要的数据是难以估计的。当然并不是所有的高维空间都不好,比如核方法,有些非线性的规律就需要映射到更高维的空间中去才能更好地解决,只不过核方法提供了一种更为简洁的运算。
  • 查询和计算的准确性和效率。准确性的话维度越高相对来说的确精度越低,一是数据度量本身的不准确性增加,而是计算时比如浮点数或者舍入等情况越多的发生,对准确性会有影响。而效率的影响更是显而易见的。
  • 去噪。 降维带来的去噪效果主要来源于两个方面,一是上面所说的计算时准确性同样的原因。二就是我们将维度降下来意味着我们只保留最主要的规律和信息,而那些轻微的细小的相关性一部分而是噪音的影响,另外一些则是我们并不希望关注的数据本身的弱关联性,这一点我们可以从信号处理的领域理解,我们通常认为我们感兴趣的信号具有较大的方差,噪声具有较小的方差,信号与噪声之比称为信噪比,信噪比越大意味着数据质量越好,反之信噪比越小意味着数据质量越差。
  • 数据压缩。 这主要是从存储的角度考虑
  • 可视化。 如果有可视化的需要的话,降低到2D、3D的维度比较适合进行可视化展示

主成分分析(PCA)(线性无监督)

PCA(Principal Component Analysis),即主成分分析方法,是一种使用最广泛的数据降维算法。PCA的主要思想是将n维特征映射到k维上,这k维是全新的正交特征也被称为主成分,是在原有n维特征的基础上重新构造出来的k维特征。
PCA的工作就是从原始的空间中顺序地找一组相互正交的坐标轴,新的坐标轴的选择与数据本身是密切相关的。其中,第一个新坐标轴选择是原始数据中方差最大的方向,第二个新坐标轴选取是与第一个坐标轴正交的平面中使得方差最大的,第三个轴是与第1,2个轴正交的平面中方差最大的。依次类推,可以得到n个这样的坐标轴。通过这种方式获得的新的坐标轴,我们发现,大部分方差都包含在前面k个坐标轴中,后面的坐标轴所含的方差几乎为0。于是,我们可以忽略余下的坐标轴,只保留前面k个含有绝大部分方差的坐标轴。事实上,这相当于只保留包含绝大部分方差的维度特征,而忽略包含方差几乎为0的特征维度,实现对数据特征的降维处理。
这种降维的思想首先减少数据集的维数,同时还保持数据集的对方差贡献最大的特征,最终使数据直观呈现在二维坐标系。
在这里插入图片描述
在这里插入图片描述

基于特征值分解协方差矩阵实现PCA算法

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

基于SVD分解协方差矩阵实现PCA算法

在这里插入图片描述

SVD奇异值分解

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

特点

  • 主成分的解释其含义一般多少带有点模糊性,不像原始变量的含义那么清楚、确切,这是变量降维过程中不得不付出的代价。
  • 主成分分析的困难之处主要在于要 能够给出主成分的较好解释,所提取的主成分中如有一个主成分解释不了,整个主成分分析也就失败了。
  • 主成分分析可用于聚类分析,将自变量进行降维方便画图。
  • 主成分分析也可用于回归分析解决多重共线性的问题。
  • 主成分分析实际上是因子分析的特例,但是由于因子分析便于解释,所以建议大家多用因子分析。

线性判别分析(LDA)(线性有监督)

在这里插入图片描述
在这里插入图片描述

广义瑞利商

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

原理

二类

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

多类

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

步骤

在这里插入图片描述

特点

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

随机分布嵌入框架(RDE)

在处理高维数据时,通常会应用降维技术,但应用时很可能忽略了高维变量之间的相互作用。为了很好地利用交互信息,RDE框架建立了一个由数量众多的低维嵌入组成的分布。虽然每个低维嵌入都保留了整个系统的一部分信息,但这些低维嵌入形成了一个概率分布,可以用来获得最终的一维变量(或值)。
随机分布嵌入(RDE)的无模型框架,以实现基于短期高维数据的准确未来状态预测。具体来说,从高维变量的观测数据中,RDE框架随机生成足够数量的低维“非延迟嵌入”,并将每个嵌入映射到“延迟嵌入”,该嵌入是由要预测的目标变量的数据构建的。这些映射中的任何一个都可以作为未来状态预测的低维弱预测器,并且所有这些映射都会生成预测未来状态的分布。这种分布实际上将来自各种嵌入的所有关联信息无偏或偏地修补到目标变量的整个动态中,在通过适当的估计策略操作后,为以更可靠和稳健的形式实现预测创建了更强的预测因子。通过将RDE框架应用于来自代表性模型和现实世界系统的数据,我们发现高维特征不再是障碍,而是对准确预测短期数据至关重要的信息来源,即使在噪声恶化的情况下也是如此。
综上所述,我们建立了一个框架,可以从短期高维数据中准确做出预测。该RDE框架的新颖性源于充分利用嵌入在大量低维非延迟吸引子中的信息,以及适当使用目标变量的利用分布进行预测。一方面,RDE框架创建一个分布,将来自各种嵌入的所有信息片段修补到预测变量的整个动态中。另一方面,基于分布信息选择合适的估计方案可以显著提高预测的可靠性和鲁棒性,即使对于噪声恶化的短期数据也是如此。经基准模型和真实世界系统生成的数据集验证,该方法对观察到的短期高维时间序列特别有效。这一优点使得RDE框架在从现实世界系统中挖掘大数据集方面可能很有用。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

论文中步骤

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值