机器学习基础(八):降维与度量学习(KNN、MDS、线性降维、PCA、核化线性降维、流形学习、度量学习)

8、降维与度量学习

8.1 k近邻k-Nearest Neighbor(KNN)学习

常用的监督学习方法,“懒惰学习lazy learning”的代表
给定测试样本,基于某种距离度量找出训练集中与其最靠近的k个训练样本,然后基于这k个邻居的信息来进行预测

通常分类任务中使用“投票法(选择这k个样本中出现最多的类别标记作为预测结果)”,回归任务中使用“平均法”,还可基于距离远近进行加权平均或加权投票,距离越近的样本权重越大。
在这里插入图片描述
条件:假设任意测试样本x附近任意小的δ离范围内总能找到一个训练样本,即训练样本的采样密度足够大,或称为"密采样dense sample"

→最近邻分类器虽简单,但它的泛化错误率不超过贝叶斯最优分类器的错误率的两倍

8.2低维嵌入

上面的密采样假设在现实任务中很难满足,会有维数灾难(如何缓解?→降维、特征选择

降维(维数约简):通过某种数学变换将原始高维属性空间转变为一个低维子空间,在这个子空间中样本密度大幅提高,距离计算也变得更为容易
评估:比较降维前后学习器的性能

高维空间中的一个低维嵌入:观测或收集到的数据样本是高维的,但与学习任务密切相关的仅是某个低维分布
在这里插入图片描述

8.2.1多维缩放Multiple Dimensional Scaling,MDS

原始空间中样本之间的距离在低维空间中得以保持
在这里插入图片描述
在这里插入图片描述

8.2.2线性降维方法

对原始高维空间进行线性变换
在这里插入图片描述
不同的线性降维方法是对低维子空间的性质有不同要求,即对W施加不同的约束

线性判别分析LDA(Linear Discriminant Analysis):一种监督学习的降维技术
将数据在低维度上进行投影,投影后希望每一种类别数据的投影点尽可能的接近,而不同类别的数据的类别中心之间的距离尽可能的大(投影后类内方差最小,类间方差最大)

8.2.3主成分分析Principal Component Analysis,PCA

常用的一种无监督降维技术
在这里插入图片描述
在这里插入图片描述
低维空间与原始高维空间必有不同,因为对应于最小的d-d’个特征值的特征舍弃了,这是降维导致的结果

舍弃这部分信息往往是必要的:一方面舍弃这部分信息之后能使样本的采样密度增大,这正是降维的重要动机;另一方面,当数据受噪声影响时最小的特征值所对应的特征向量往往与噪声有关,将它们舍弃能在定程度上起到去噪的效果

8.2.4核化kernelized线性降维

不少现实任务中需要非线性映射才能找到恰当的低维嵌入
在这里插入图片描述
核主成分分析Kernelized PCA,KPCA
在这里插入图片描述
在这里插入图片描述

8.2.5流形学习manifold learning

借鉴了拓扑流形概念的降维方法

流形:在局部具有欧氏空间的性质,能用欧氏距离来进行距离计算

8.2.5.1等度量映射Isometric Mapping,Isomap

试图保持近邻样本之间的距离

高维空间中的直线距离在低维嵌入流形上是不可达的

低维嵌入流形上两点间的距离是"测地线”距离:想象一只虫子从一点爬到另一点,如果它不能脱离曲面行走,那么下图a)的红色曲线是距离最短的路径,即S曲面上的测地线,测地线距离是两点之间的本真距离
在这里插入图片描述
→可利用流形在局部上与欧氏空间同胚这个性质,对每个点基于欧氏距离找出其近邻点,然后就能建立一个近邻连接图,图中近邻点之间存在连接,而非近邻点之间不存在连接,于是,计算两点之间测地线距离的问题,就转变为计算近邻连接图上两点之间的最短路径问题

近邻图的构建:①指定近邻点个数,例如欧氏距离最近的k个点为近邻点,这样得到的近邻图为k近邻图;②指定距离阈值ε,距离小于ε的点被认为是近邻点,这样得到的近邻图为ε近邻图
在这里插入图片描述
Isomap仅是得到了训练样本在低维空间的坐标,对于新样本,如何将其映射到低维空间呢?这个问题的常用解决方案,是将训练样本的高维空间坐标作为输入、低维空间坐标作为输出,训练一个回归学习器来对新样本的低维空间坐标进行预测

8.2.5.2局部线性嵌入Locally Linear Embedding,LLE

试图保持邻域内样本之间的线性关系
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

8.3度量学习metric learning

对距离度量进行学习
在这里插入图片描述
假定我们是希望提高近邻分类器的性能,则可将M直接嵌入到近邻分类器的评价指标中去,通过优化该性能指标相应地求得M

→以近邻成分分析NCA为例进行讨论
近邻分类器判别如果用概率投票法:
在这里插入图片描述
不仅能把错误率这样的监督学习目标作为度量学习的优化目标,还能在度量学习中引入领域知识
在这里插入图片描述
_ _ _ _ _ _ 未完待续,喜欢的朋友可以关注后续文章 _ _ _ _ _ _

机器学习基础系列文章回顾:
机器学习基础(一):简介
机器学习基础(二):模型评估与选择
机器学习基础(三):决策树
机器学习基础(四):特征选择与稀疏学习
机器学习基础(五):计算学习理论(PAC学习、有限假设空间、VC维、Rademacher复杂度、稳定性)
机器学习基础(六):贝叶斯分类(贝叶斯决策论、朴素/半朴素贝叶斯分类器、贝叶斯网、EM算法)
机器学习基础(七):概率图模型(HMM、MRF、CRF、话题模型、推断方法)

参考书目:
周志华.《机器学习》

  • 1
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值