机器学习基础--各种学习方式（17）--度量学习

最新推荐文章于 2023-06-13 17:49:17 发布

whitenightwu

最新推荐文章于 2023-06-13 17:49:17 发布

阅读量1.5k

点赞数

分类专栏：机器学习基础

本文链接：https://blog.csdn.net/wydbyxr/article/details/81070871

版权

机器学习基础专栏收录该内容

51 篇文章 25 订阅

订阅专栏

度量学习

　　距离的度量对众多机器学习方法的性能都起到了决定性作用：例如在分类方法中，K近邻分类器、使用了高斯核的核方法；在聚类方法中，K均值聚类、谱聚类方法都与距离度量密切相关。
　　卡内基梅隆大学机器学习系的邢波教授于2003年提出了距离度量学习。
　　一个好的距离度量能够根据数据的结构与分布适用于不同的应用。

概念

　　一般的距离度量学习针对度量矩阵M展开。
　　度量矩阵的对称正定性，必然存在正交基P，使得M=PP~T ，故对度量矩阵M的学习，等效于学习一个线性空间变换矩阵P。
　　更进一步地，若M是一个低秩矩阵，那么存在正交基P，该正交基可以作为降维矩阵使用。也即低秩距离度量学习可以衍生出一个降维方法。
　　几乎每种线性距离度量学习方法都对应着一类降维策略。在意识到距离度量学习和降维的关系之后，研究者们提出了很多能够直接进行降维或者利用降维能力简化计算的距离度量学习方法。

性质

　　一般来说，对于任意样本x, y, z而言，距离度量函数需要满足：

自反（任意样本到自身的距离为0）
对称（x到y的距离等于y到x的距离）
非负（任意样本对之间的距离大于等于0）
直递（三个样本之间的距离满足三角不等式）等性质

种类

　　闵可夫斯基距离（欧几里得距离、曼哈顿距离、切比雪夫距离均为其特例）、马氏距离、海明距离等距离度量函数，
　　针对某些特定问题的衍生距离度量，例如，动态时间规整距离DTW, 推土机距离EMD等。

使用指南

　　1)欧氏距离是众多数据挖掘应用中使用最多的距离度量，但是欧氏距离仅适用于特征空间中超球结构的数据集，对于超立方体结构、超椭球结构的数据集效果不太理想。
　　2）余弦距离在文本检索中有优秀的表现，但是其预先假设了数据集每一维度都是等权重的，这一特性显然限制了余弦距离的应用范围。
　　例子：LMNN学习得到的度量旨在局部区域将同类样本点拉近、异类样本点排斥开，并在同类和异类样本之间建立一个边界区域以便于kNN取得较好的分类效果。”