《机器学习》第十章 降维与度量学习 总结

k近邻学习(k-Nearest Neighbor)
一种常用的监督学习方法,给定测试样本,基于某种距离度量找出训练集中与其最靠近的k个训练样本,然后基于这k个“邻居”的信息来进行预测。对于分类任务常采用投票法,回归任务常采用平均法。另外,k近邻学习没有显示的学习过程

懒惰学习(lazy learning):在训练阶段仅仅是把样本保存起来,训练时间开销为零,待收到测试样本后再进行处理,k紧邻学习就是懒惰学习的一个特例

急切学习(eager learning):在训练阶段就对样本进行学习处理的方法,例如决策树算法、误差逆传播算法都属于急切学习

k近邻学习的泛化错误率:不超过贝叶斯最优分类器的两倍,具体推导见公式(10.2)

低维嵌入
k近邻学习泛化错误率不高于贝叶斯最优分类器泛化错误率的两倍是基于任意测试样本附近任意小的距离范围内总能找到一个训练样本的假设,即训练样本的采样密度足够大,或称为密度采样(dense sample)。然而,这个假设在现实任务中很难满足,特别是属性太多时,要满足密度采样所需的样本数目是无法达到的。另外,维度太高时甚至难以计算内积。因此,需要针对具体的学习任务,对训练样本进行降维

降维(demension reduction):通过某种数学变换,将原始高维属性空间转变成一个低维子空间(subspace),再这个子空间中样本密度大幅提高,距离计算也变得更容易。能进行降维的原理是,人们观测到的数据样本虽然是高维的,但是与学习任务密切相关的也许仅是某个低维分布,即高维空间的一个低维嵌入(embedding)

多维缩放(Multiple Dimensional Scaling,MDS):使原始空间中样本之间的距离在低维空间中得以保持。通过求解降维后样本的内积矩阵,并进行特征值分解,得到样本在d’维空间的表示,且任意两个样本在d’维空间的欧氏距离等于原始空间的距离。在现实人物中为了降维,往往仅需降维后的距离与原始空间中的距离尽可能接近而不是完全相等,因此可取d’<<d个最大特征值构成对角矩阵,见公式(6.12)

主成分分析(Principal Component Analysis,PCA)
最常用的一种降维方法,基于最近重构性:样本点到这个超平面的距离都足够近和最大可分性:样本点在这个超平面上的投影尽可能分开。有趣的是,基于最近重构性和最大可分性,能分别得到主成分分析的两种等价推导,见公式(10.14)~(10.17)

PCA算法:给定样本集和低维空间维数d’。首先对所有样本进行去中心化,然后计算样本的协方差矩阵并对其进行特征值分解,最后取最大的d’个特征值所对应的特征向量即形成线性变换所需要的投影矩阵。降维后的d’维通常由用于事先指定,或者通过在d’值不同的低维空间中对k近邻分类器进行交叉验证来选取较好的d’值。PCA最小的d-d’个特征值的特征向量被舍弃了,直觉上会使人认为这会影响到降维的精度,然而舍弃这部分特征向量往往是必要的:不仅能够增大样本的采样密度(降维),还能减少数据受噪声的影响,达到去噪的效果(最小的特征值所对应的特征向量往往与噪声有关)

核化线性降维(kernelized linear )
线性降维方法假设从高维空间到低维空间的函数映射是线性的,然而在限时任务中往往需要非线性映射才能找到恰当的低维嵌入。原本采样的空间成为本真(intrinsic)低维空间。非线性降维的一种常用方法,是基于核技巧对线性降维方法进行“核化”(kernelized)

核主成分分析(Kernelized PCA,KPCA):基于核技巧对线性降维方法进行核化。 z i 是 样 本 点 在 高 维 特 征 空 间 的 像 , 即 z_{i}是样本点在高维特征空间的像,即 ziz_{i}= \phi(x)$ 。若 ϕ \phi ϕ能够被显示表达出来,则通过它将样本映射至高维特征空间,再在特征空间中实施PCA即可。但一般情况下,我们不知道 ϕ \phi ϕ的具体形式,于是引入核函数 κ ( x i , x j ) = ϕ ( x i ) T ϕ ( x j ) \kappa (x_{i} ,x_{j} )=\phi(x_{i})^{T} \phi(x_{j}) κ(xi,xj)=ϕ(xi)Tϕ(xj),化简为式(10.24),对K进行特征值分解,取K的最大d’个特征向量即可,对新样本,投影后的坐标见(10.25),需要对所有样本求和,因此KPCA计算开销较大

流形学习(manifold learning dimensionality reduction)
一种借鉴了拓扑流形概念的降维方法。“流形”是在局部与欧氏空间同胚的空间,它在局部具有欧氏空间的性质,能用欧氏距离来进行距离计算。若低维流形嵌入到高维空间中,则数据样本在高维空间的分布看上去非常复杂,但在局部仍具有欧氏空间的性质,因此可以容易地在局部建立降维映射关系,然后再设法将局部映射关系推广到全局

等度量映射(Isometric Mapping,Isomap):认为低维流形嵌入到高维空间之后,直接在高维空间中计算直线距离具有误导性,因为在高维空间中的直线距离在低维嵌入流形上是不可达的,而测地线(geodesic)的距离才是两点之间的本真距离。计算测地线距离,可以利用流形在局部上与欧氏空间同胚这个性质,对每个点基于欧氏空间找出其近邻点,然后就能建立一个近邻连接图,于是计算两点之间测地线的距离就变成计算近邻连接图上两点之间最短路径的问题。在近邻连接图上计算两点之间最短路径采用迪杰斯特拉算法,在得到任意两点距离后,可利用MDS算法来获得样本点在低维空间中的坐标

局部线性嵌入(Locally Linear Embedding,LLE):与Isomap不同,LLE试图保持邻域内样本之间的线性关系。LLE先为每个样本找到其近邻下标集合,然后算出基于近邻下标集合中的样本点对样本进行线性重构的系数。LLE在低维空间中保持系数不变,于是样本在低维空间中的坐标可通过公式(10.29)求解

度量学习(metric learning)
对高维数据进行降维的主要目的是希望找到一个合适的低维空间,在此空间中进行学习能比原始空间性能更好。每个空间对应了在样本属性上定义的一个距离度量,寻找合适的空间,实质上就是在寻找一个合适的距离度量。度量学习的基本动机是直接尝试“学习”出一个合适的距离度量

马氏距离(Mahalanobis distance):考虑到属性之间的相关性,将带权欧氏平方距离表达式(10.33)中的对角矩阵替换为一个普通的半正定矩阵,度量学习就是对这个半正定矩阵进行学习

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值