对高维数据进行降维的算法

解析:

维度灾难:在高维情况下出现的数据样本稀疏,距离计算困难等问题。

缓解维度灾难的一个重要途径就是降维,通过某种数学变换将原始高维属性空间转变成一个低维子空间,在这个子空间中样本密度大幅提高,距离计算也变得更加容易。

降维算法(LASSO、PCA、聚类分析、小波分析、线性判别分析、拉普拉斯特征映射、局部线性嵌入奇异值分解(SVD)、主成分分析(PCA)、因子分析(FA)、独立成分分析(ICA)

Lasso(Least absolute shrinkage and selection operator, Tibshirani(1996)) 方法:是一种压缩估计,它通过构造一个罚函数得到一个较为精炼的模型,使得它压缩一些系数,同时设定一些系数为零。因此保留了子集收缩的优点,是一种处理具有复共线性数据的有偏估计。Lasso 的基本思想是在回归系数的绝对值之和小于一个常数的约束条件下,使残差平方和(RSS)最小化,从而能够产生某些严格等于 0 的回归系数,得到可以解释的模型。lasso通过参数缩减达到降维的目的;本身是一种回归方法。与常规回归方法不同的是,LASSO可以对通过参数缩减对参数进行选择,从而达到降维的目的。说到LASSO,就不得不说岭回归,因为LASSO就是针对岭回归不能做参数选择的问题提出来的。

PCA:主成分分析

小波法分析:小波分析的实质就是将原始信号表示为一组小波基的线性组合。我们可以通过忽略其中不重要的部分来达到降维的目的。这种思想具体可以用傅里叶变换进行类比。傅里叶变换用不同频率的三角函数的和去拟合原始信号,对于每个单独的三角函数,只需要记录其相位和幅度即可,同时,利用相位和幅度可以完美的重构出原始信号。另外,由于高频分量往往是信号中的噪音,通过去除高频分量可以达到降维的目的。 

线性判别分析(LDA): 

拉普拉斯特征映射: 

局部线性嵌入:    

聚类分析:大家所熟知的聚类算法如K-means等是一种面对小数据的无监督学习算法,可有效解决低维数据空间的聚类问题。然而在处理高维数据和大型数据等情况时,传统聚类方法往往会失效,这是由于高维数据常常存在很多冗余属性且数据在高维分布非常稀疏,距离函数失效。为了解决高维度数据的聚类问题,学术界提出了一种名为高维聚类的算法,具体分为基于属性约简(降维)的方法、基于子空间的方法等。其思想大概是通过特征抽取或者特征变换等方法将原始数据集从高维空间转换到低维空间,再利用传统聚类的思想进行聚类。
 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值