降维概述

降维(dimensionality reduction)是指采用某种映射方法,将数据的特征维度从高维转换到低维。那么,为什么要进行降维呢?

首先,我们碰到的很多数据是高维的。虽然原始数据是高维的,但是数据“内在的维数”可能更低。我们来看一个实际的例子。

假设我们现在要借助用户手机的通信数据来对用户价值进行分析。我们的通信数据包括用户入网时间、套餐价格、每月话费、每月流量、每月通话时长、欠费金额和欠费月份数等特征。在这里,每月话费、每月流量和每月通话时长具有相关性,且都表示的是用户的消费能力。欠费金额和欠费月份数也具有很高的相关性,都表示的是用户欠费指数。

在对用户进行价值评估时,我们往往不对具体的特征感兴趣,而是对更抽象的消费能力、欠费指数和用户忠诚度感兴趣。与原始7个维数相比,我们使用消费能力、欠费指数和用户忠诚度3个维度能够更加直观地对用户价值进行刻画。

高维数据给数据分析带来的一个重要挑战是维度灾难(curse of dimensionality)问题,即模型的复杂度和计算量随着维数的增加而指数增长。降维是解决维度灾难问题的一种手段。通过降维,不仅可以降低模型的复杂度,也可以大大减少模型的训练时间。此外,降维还可以作为特征提取的一种手段。我们需要注意特征提取与特征选择的不同,特征选择是指从原始特征中挑选出最有代表性、利用模型预测的特征,与降维得到各个特征的组合还是有差别的。

降维方法从高维到低维映射的方式角度来看,可以分为线性降维和非线性降维。线性降维包括主成分分析(PCA)、线性判别分析(LDA)和独立成分分析(ICA);非线性降维方法包括基于核函数的降维方法,如核主成分分析(KPCA)、核判别分析(KDA)和核独立成分分析(KICA),还包括基于流形学习的降维方法,如多维尺度变换(MDS),局部线性嵌入(LLE)、等度量映射(Isomap)和t分布随机近邻嵌入(t-SNE)等。

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值