机器学习基础--各种学习方式(17)--度量学习

度量学习

  距离的度量对众多机器学习方法的性能都起到了决定性作用:例如在分类方法中,K近邻分类器、使用了高斯核的核方法;在聚类方法中,K均值聚类、谱聚类方法都与距离度量密切相关。
  卡内基梅隆大学机器学习系的邢波教授于2003年提出了距离度量学习。
  一个好的距离度量能够根据数据的结构与分布适用于不同的应用。

概念

  一般的距离度量学习针对度量矩阵M展开。
  度量矩阵的对称正定性,必然存在正交基P,使得M=PP~T ,故对度量矩阵M的学习,等效于学习一个线性空间变换矩阵P。
  更进一步地,若M是一个低秩矩阵,那么存在正交基P,该正交基可以作为降维矩阵使用。也即低秩距离度量学习可以衍生出一个降维方法。
  几乎每种线性距离度量学习方法都对应着一类降维策略。在意识到距离度量学习和降维的关系之后,研究者们提出了很多能够直接进行降维或者利用降维能力简化计算的距离度量学习方法。

相关名词

  必连(must-link)和勿连(cannot link)约束集概念(分别记为S和D,即相似样本组成的样本对属于必连约束集、相异样本对属于勿连约束集)
  必连、勿连约束往往来自于样本的标记信息,而且约束所有的样本,故而使用必连、勿连约束的距离度量学习方法往往是全局度量学习方法。

性质

  一般来说,对于任意样本x, y, z而言,距离度量函数需要满足:

自反(任意样本到自身的距离为0)
对称(x到y的距离等于y到x的距离)
非负(任意样本对之间的距离大于等于0)
直递(三个样本之间的距离满足三角不等式)等性质

种类

  闵可夫斯基距离(欧几里得距离、曼哈顿距离、切比雪夫距离均为其特例)、马氏距离、海明距离等距离度量函数,
  针对某些特定问题的衍生距离度量,例如,动态时间规整距离DTW, 推土机距离EMD等。

使用指南

  1)欧氏距离是众多数据挖掘应用中使用最多的距离度量,但是欧氏距离仅适用于特征空间中超球结构的数据集,对于超立方体结构、超椭球结构的数据集效果不太理想。
  2)余弦距离在文本检索中有优秀的表现,但是其预先假设了数据集每一维度都是等权重的,这一特性显然限制了余弦距离的应用范围。
  例子:LMNN学习得到的度量旨在局部区域将同类样本点拉近、异类样本点排斥开,并在同类和异类样本之间建立一个边界区域以便于kNN取得较好的分类效果。”

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值