各种距离、相似度

数据科学家修炼之道

已于 2023-11-24 18:51:12 修改

阅读量100

点赞数 1

分类专栏： AI # 机器学习文章标签：机器学习人工智能

于 2023-11-24 08:16:35 首次发布

本文为博主原创文章，欢迎转载，转载请注明出处。

本文链接：https://blog.csdn.net/xiligey1/article/details/134589861

版权

AI 同时被 2 个专栏收录

130 篇文章 7 订阅

订阅专栏

8 篇文章 0 订阅

订阅专栏

文章目录

欧氏距离
曼哈顿距离
切比雪夫距离
闵可夫斯基距离
标准化欧氏距离
马氏距离
余弦相似度

$n$ 维样本空间里的点 $x=(x_1,x_2,...,x_n)$ 和点 $y=(y_1,y_2,...,y_n)$ 之间的各种距离

欧氏距离

$y)=\sqrt{\sum_{i=1}^n(x_i-y_i)^2}$

曼哈顿距离

亦称为城市街区距离

$d(x,y)=\sum_{i=1}^n|(x_i-y_i)|$

切比雪夫距离

$d(x,y)=\max_{i=1}^n|x_i-y_i|$

等价于

$\lim_{k\to\infty}(\sum_{i=1}^n|x_i-y_i|^k)^{1/k}$

因此切比雪夫距离亦称为 $L_\infty$ 距离

闵可夫斯基距离

$d(x,y)=\sqrt[p] {\sum_{i=1}^n|x_i-y_i|^p}$

其中 $p$ 是一个参数(可以等于1,2,3…)，根据参数的不同，闵氏距离可以表示一类距离

标准化欧氏距离

$d(x,y)=\sqrt{\sum_{i=1}^n(\frac {x_i-y_i} {s_i})^2}$

其中 $s_i$ 代表包含点 $x$ 和 $y$ 的样本集的第i个特征的标准差。另，若将方差的倒数看成一个权重，这个公式可看成是一种加权欧氏距离

马氏距离

马氏距离（Mahalanobis Distance）是由印度统计学家普拉萨德·马哈拉诺比斯（Prasanta Chandra Mahalanobis）提出的，用于测量一个点与一个分布之间的距离。与欧氏距离不同，马氏距离考虑了数据集中各个特征的相关性，并且是尺度无关的，即它不受数据集中各个特征尺度的影响。

若不同维度之间存在相关性和尺度变换等关系，需要使用一种变化规则，将当前空间中的向量变换到另一个可以简单度量的空间中去测量。马氏距离与量纲无关，排除了变量之间的相关性的干扰。

单个数据点的马氏距离：

$d(x)=\sqrt{z^Tz}=\sqrt{(x-\mu)^TS^{-1}(x-\mu)}$

数据点x、y之间的马氏距离：

$d(x,y)=\sqrt{(x-y)^TS^{-1}(x-y)}$

均值记为向量 $\mu=(\mu_1,\mu_2,...,\mu_m)^T$ ,协方差矩阵记为 $S$ ,则样本点 $x=(x_1,x_2,...,x_m)^T$ 和 $y=(y_1,y_2,...,y_m)^T$ 的距离如上。若各个样本之间独立同分布，则公式就变成了欧氏距离。

特点

尺度无关性：马氏距离通过使用协方差矩阵调整各个特征的尺度，因此它对不同尺度的特征不敏感。
考虑特征间相关性：由于使用了协方差矩阵，马氏距离考虑了特征之间的相关性。如果特征间相互独立，协方差矩阵就是对角线矩阵，此时马氏距离等同于标准化的欧氏距离。
异常值检测：马氏距离经常用于多变量数据的异常值检测，因为它可以量化一个点与数据集分布的差异。

应用

马氏距离广泛应用于多个领域，包括模式识别、分类问题和数据聚类。在这些应用中，它帮助识别和区分不同的数据点或数据集，尤其是在特征之间存在相关性的情况下。

在实际应用中，计算马氏距离需要数据集的协方差矩阵及其逆矩阵。在多数情况下，使用样本协方差矩阵作为总体协方差矩阵的估计。需要注意的是，当特征数量大于样本数量时，协方差矩阵可能不是满秩的，这时就需要使用伪逆矩阵或添加正则化项。

计算

在实际应用中，计算巴氏距离通常涉及到计算两个分布的均值和协方差矩阵。对于非正态分布或者离散分布，巴氏距离的计算可能更加复杂，需要根据具体的分布特性来确定。在Python中，可以使用NumPy和SciPy等库来辅助计算均值、方差和协方差，进而计算巴氏距离。

余弦相似度

$d(x,y)=\frac {x·y} {||x||*||y||}$

其中 $∣∣ x ∣∣$ 表示 $x$ 的欧几里得范数，即长度。

数据科学家修炼之道

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
各种距离、相似度

n维样本空间里的点xx1x2...xn和点yy1y2...yn之间的各种距离。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。