数据降维方法小结

本文总结了数据降维的方法,包括线性映射的PCA和LDA,以及非线性映射的核方法、二维化和流形学习。PCA通过协方差矩阵实现主成分分析,LDA则基于线性判别准则。非线性映射如KPCA利用核技巧处理非线性问题,而流形学习如ISOMAP和LLE则保留数据的拓扑结构。数据降维有助于计算和可视化,以及有效信息的提取。
摘要由CSDN通过智能技术生成

  数据的形式是多种多样的,维度也是各不相同的,当实际问题中遇到很高的维度时,如何给他降到较低的维度上?前文提到进行属性选择,当然这是一种很好的方法,这里另外提供一种从高维特征空间向低纬特征空间映射的思路。

数据降维的目的

  数据降维,直观地好处是维度降低了,便于计算和可视化,其更深层次的意义在于有效信息的提取综合及无用信息的摈弃

数据降维的方法

  主要的方法是线性映射和非线性映射方法两大类。

线性映射

  线性映射方法的代表方法有:PCA(Principal Component Analysis),LDA(Discriminant Analysis)

PCA方法简介

  主成分分析的思想,就是线性代数里面的K-L变换,就是在均方误差准则下失真最小的一种变换。是将原空间变换到特征向量空间内,数学表示为 Ax=λx
  特征向量和特征值的意义:分别表示不同频率及其幅度。
  特征向量和特征值的直白理解:想在特征空间内找到某个向量 x ,使得其满足 Ax=λx 。这个式子可以这样理解, A 是空间内的运动, x 经过运动 A 后,保持方向不变(仍是 x 的方向),只是大小伸缩了 λ 倍。这样我们找到了 k 个这样的向量 βk
   A[β1,β2,...,βk]=[λ1β1,λ2β2,...,λkβk]
  当然在实际用时,取最大的前几个足矣。
  PCA计算是用的协方差矩阵 U 的分解特征向量。
  1. 样本矩阵去中心化(每个数据减去对应列的均值),得到 Am,n Am,n 表示 m n 维的数据。
  2. U 表示样本矩阵 A 的协方差矩阵( ATA = U ,因为去中心化后的 ATA 即协方差)
   E(XX0)(YY0)=mi=11m(xix0)(yiy0)
  期望的定义: E(x)=xip(xi)
  3. U=[β]Λ[β]1

  • 16
    点赞
  • 82
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值