机器学习中降维与度量学习的一些知识

k其工作机制非常简单 给定测试样本?基于某种距离度量找出 练集中 与其最 靠近的 个训练样本,然后基于这 k个"邻居 "的信息来进行预测近邻(k Nearest eighbo ,简称 kNN 习是一种常用的监督学习 方法,与前面介绍的学习方法相比 近邻学习有 个明 显的不 之处 它似乎 没有显式的训练过程!事实上,它是"懒惰学习" (lazy earnin 著名代表,此类学习技术在训练阶段仅仅是把样本保存起来,训练时间开 为零,待收到 测试样本后再进行处理;相应的,那些在训练阶段就对样本进行学习处理的方 法,称为"急切学习" (eager learning).

测试样本在 k=1或 k=5 时被判 别为正例 k = 3时被判 为反例. 最近邻分类器虽简单,但它的泛化错误率不超过贝叶斯最优分类器的错误率的两倍!

 事实上,在高维情形下 现的数据样本稀疏、 距离计算困 难等问 是所有机器学习方法共同面 的严重障碍, 被称为" 维数灾难",缓解维数灾难的 个重要途径是降维(dimension red uction) 亦称" 维数 约简 PP ,即通过某种数学变换将原始高维属 性空间转变为 一个低维"子空 间"

对降维效果的评估,通常是比较降维前后学习器的性能?若性能有所提高 则认为降维起到了作用.若将维数降至二维或三维,则可通过可视化技术来直 观地判断降维效果.

主成分分析 (Principal Component Analysis ,简称 PCA)是最常用的一种 降维方法

 

PCA 仅需保留w 样本的均值向量即可通过简单的向量减法和矩阵"向 量乘法将新样本投影至低维空间中 显然,低维空间与原始高维空间必有不同, 因为对应于最小的 d-d' 个特征值的特征 舍弃了,这是降维导致的结果. 但舍弃这部分信息往往是必要的- 一方面舍弃这部分信息之后能使样本的采 样密度增大,这正是降维的重要动机; 另一方面,当数据受 噪声影响时 最小 的特征值所对应的特征 向量往往与噪声有关?将它们舍弃能在 定程度上起到 去噪的效果. 

非线性阵维的 一种常用 方法,是基于核技巧对线性 降维方法进行"核 化" (kerneli zed) 

流形学习等度量映射(Isometric Mappin ,简称 somap) [Tenenbaum et al., 2000 基本 出发点,是认为低维流 嵌入到高维空间之后,直接 维空间 中计 线距离具有误导性?因为 维空 间巾的直线 在低维嵌入流形上是不可达的 如图 lO .7(a) 所示,低维嵌入流形上两点间的距离是"测地线" geodes c) 距离 想象一只虫子从 点爬到另 点,如果它不能脱离 曲面 走,那么图 1O.7(a 的红色曲线是距离最短的 径, 曲面 的测地线 测地线距离是两点之间 的本真 离.显然?直接在高维空间中计算直线距离是不恰当

等度量映射 (manifold learning) 是一类借鉴 了拓扑流形概念的降维方法 "流形"是在局部与欧氏空间同胚的空间,换言之,它在局部具有欧 氏空间的 性质 能用欧氏距离来进 距离计算.这 降维方法带来了很大的启发:若低 维流形嵌入到高维空间中 则数据样本在高维空间的分布虽然看上去非常 但在局部上仍具有欧氏空间的性质,因此,可以容易 在局部建立阵维映射关 系,然后再设 将局部映射关系推广到全局.当维数被降至二维或三维时,能对 数据进行可视化展示 因此流形学习也可被用于可视化 本节介绍两种著名 流形学习方法

从图 10.7(b) 可看出,基于近邻距离逼近能获得低维流形 测地线距离很好 的近似.对近邻图的构建通常有两种做法,一种是指定近邻点个数,例如欧氏距离 最近的 个点为近邻点,这样得到的近邻图称为 近邻图;另一种是指定距离 阔值 ,距离小子 的点被认为是近邻点,这样得到的近邻图称为 近邻图.

与Isomap 试图保持近邻样本之间的距离不同,局部线性嵌入(Locally Linear Embedding,简称LLE) [Roweis and Saul, 2000] 试图保持邻域内样本之间的线性关系 

 在机器学习中 对高维数据进行降维的主要目的是希望找~Ij-个合适的低 维空间,在此空间中进行学习能比原始空间性能更好.事实上,每个空间对应了 在样本属性上定义的一个距离度量,而寻找合适的壁间,实质上就是在寻找一 个合适的距离度量.那么,为何不直接尝试"学习"出一个合适的距离度量呢? 这就是度量学习 (metric learning) 的基本动机.

近邻分类器在进行判别时通常使用多数投票法,邻域中的每个样本投1 票, 邻域外的样本投 0票.不妨将其替换为概率投票法.对于任意样本的,它对 Xi 分类结果影响的概率为

求解式(10.38) 即可得到最大化近邻分类器 LOO 正确率的距离度量矩阵 M.

不同的度量学习方法针对不同目标获得"好"的半正定对称距离度量矩 ,若 是一个低秩矩阵 则通过对 进行特征值分解,总能找到一组正 交基,其正交基数目为矩阵 的秩 rank(M),小于原属性数 d. 于是?度量学习 学得的结果可衍生出一个降维矩阵 PεRd rank(M) ,能用于降维之目的. 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值