降维常用方法SVD、PCA、CCA、NMF

最近在学习一些自然语言处理方面的知识,在学习的过程中发现,词向量构成的矩阵多为稀疏矩阵,信息比较分散,必须通过降维的方法将信息集中起来,从而方便后续的分析。本文将重点介绍几种不同降维方法的思想、区别

PCA

简介:主成分分析算法的关键在于对坐标轴进行旋转,从而找到使得数据中信息更加集中的坐标方向。简单的说就是对数据进行投影。

PCA的算法流程

  1. 对样本进行中心化

小tip:对样本中心化之后的协方差数据的分析,相当于对相关系数矩阵进行分析

  1. 计算样本的协方差矩阵
  2. 对协方差矩阵进行特征分解,找到特征值以及特征向量
  3. 根据保留的信息选取相应的特征值个数

PCA的推导思路

在主成分分析中有两个降维的标准:
(1)样本点在不同的坐标轴上的信息尽可能地分开
(2)样本点在超平面的距离足够近

下面本文将根据最大投影方差,即进行坐标轴旋转之后信息量最大进行PCA的推导

SVD

简介:奇异值分解和特征分解不同,其并不要求分解的矩阵为一个方阵。而且在分解的过程红不需要求解协方差矩阵。

SVD算法思路

  1. 求解出两个方阵
  2. 分别计算两个方针的特征向量
  3. 利用AV=sigma*U求解奇异值

SVD的一些性质

  • 一个矩阵A经过奇异值分解之后可以用三个小矩阵进行奇异值的描述
  • 与PCA的关系:利用SVD的右奇异矩阵同样可以达到PCA的效果,而且通过这种方法可以可以很容易的实现不再需要暴力特征分解
  • 右奇异矩阵可以进行特征维度的压缩,左奇异矩阵可以进行样本维度的压缩

CCA

简介:CCA称为典型相关分析,通过对于相关性的分析有如下集中类型:
(1)一对一:相关系数
(2)一对多:回归
(3)多对多:典型相关分析

CCA算法思路

CCA算法:本质是投影+相关性分析,其选择的投影标准是将数据投影到一维使得两组数据的相关系数达到最大
PCA:投影标准是投影后的数据方差最大
LDA:投影原则是同类投影方差小,异类间投影的方差比较大
CCA的算法流程

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值