机器学习基础之常见距离计算

最新推荐文章于 2024-02-08 08:44:38 发布

weixin_54587347

最新推荐文章于 2024-02-08 08:44:38 发布

阅读量206

点赞数

分类专栏：机器学习文章标签：机器学习算法 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_54587347/article/details/131351534

版权

机器学习专栏收录该内容

1 篇文章

订阅专栏

本文介绍了几种常见的距离度量方法，包括欧氏距离及其需要归一化的缺点，标准化欧氏距离通过数据标准化解决此问题，曼哈顿距离和切比雪夫距离则提供不同场景下的度量方式。此外，还讲解了闵可夫斯基距离作为这些距离的一般化形式，并指出其在处理不同量纲和分布数据时的局限性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

个人学习记录，若有侵权，请联系删除。

一、欧氏距离（Euclidean Distance）

欧氏距离是最容易直观理解的度量方法。即两点之间的距离

如点 $x = (x_1, x_2, ..., x_n)$ 和点 $y = (y_1, y_2, ..., y_n)$ 之间的距离为：

$d(x, y) = \sqrt{(x_1-y_1)^2+(x_2-y_2)^2+...+(x_n-y_n)^2}=\sqrt{\sum_{i=1}^{n}(x_i-y_i)^2}$

缺点：欧氏距离并非尺度不变，这意味着所计算的距离可能会根据特征的单位发生倾斜。通常，在使用欧氏距离度量之前，需要对数据进行归一化处理。

二、标准化欧氏距离（Standard Euclidean Distance）

标准化欧氏距离是针对欧氏距离的缺点而作的一种改进，但要求必须基于一个数据集的分布

思路：既然数据各维分量的分布不一样，那先将各个分量都“标准化”到均值、方差相等，即使得各个维度分别满足标准正态分布。假设样本集X的均值为m，标准差为s，X的标准化变量表示为

$X^* = \frac{X-m}{S}$

如两个n维向量 $a(x_{11}, x_{12}, ..., x_{1n})$ 与 $b(x_{21}, x_{22}, ..., x_{2n})$ 间的标准化欧氏距离公式为：

$d(a,b)=\sqrt{\sum_{k=1}^{n}(\frac{x_{1k}-x_{2k}}{s_k})^2}$

三、曼哈顿距离（Manhattan Distance）

在曼哈顿街区要从一个十字路口开车到另一个十字路口，直观上看，绿线的距离最短，但在现实中显然是不成立的，因为我们不能穿过房屋。驾驶距离显然不是两点间的直线距离，这些实际驾驶距离就是“曼哈顿距离”，也称为“街区距离”

红蓝黄线均为曼哈顿距离，绿线为欧氏距离

如两个n维向量 $a(x_{11}, x_{12}, ..., x_{1n})$ 与 $b(x_{21}, x_{22}, ..., x_{2n})$ 间的曼哈顿距离公式为：

$d(a,b)=\sum_{k=1}^{n}|x_{1k}-x_{2k}|$

四、切比雪夫距离（Chebyshev Distance）

切比雪夫距离来源于国际象棋，国王可以直行、横行、斜行，所以国王走一步可以移动到相邻8个方格中的任意一个。国王从一个格子走到另一个格子最少需要多少步？这个距离就是切比雪夫距离如两个n维向量 $a(x_{11}, x_{12}, ..., x_{1n})$ 与 $b(x_{21}, x_{22}, ..., x_{2n})$ 间的切比雪夫距离公式为：

$d(a,b)=\max\limits_k(|x_{1k}-x_{2k}|)$

五、闵可夫斯基距离（Minkowski Distance）

1、闵可距离的定义

两个n维向量 $a(x_{11}, x_{12}, ..., x_{1n})$ 与 $b(x_{21}, x_{22}, ..., x_{2n})$ 间的闵可夫斯基距离公式为：

$d(a,b)=\sqrt[p]{\sum_{k=1}^{n}|x_{1k}-x_{2k}|^p}$

其中p是一个变参数

当p=1时，就是曼哈顿距离

当p=2时，就是欧氏距离

当p= $\infty$ 时，就是切比雪夫距离

2、闵可距离的缺点

1）将各个分量的量纲，也就是“单位”当作相同的看待了

2）没有考虑各个分量的分布（期望，方差等）可能是不同的

weixin_54587347

博客等级

码龄4年

3
原创

2
点赞

16
收藏

21
粉丝

关注

私信

热门文章

分类专栏

机器学习 1篇
Python基础 2篇

最新评论

机器学习基础之常见距离计算
CSDN-Ada助手: 非常感谢用户的分享，这篇博客内容非常实用，让我对常见距离计算有了更深刻的理解。感谢用户的持续创作，我期待着更多优质的博客。如果可以的话，我建议用户可以写一些实践性更强的内容，让读者能够更加深入地了解机器学习的应用领域。 CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3，我们会奖励持续创作和学习的博主，请看：https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply3
python导入模块规范化——isort
CSDN-Ada助手: 非常棒的博客！你的文章详细介绍了isort这个有趣且实用的Python库，让读者了解了它的使用方法及其优点。此外，你还提到了isort需要python3.7+才能运行，但也支持格式化python2代码，这是一个很有用的技能。如果你想进一步加强你的Python技能，可以尝试学习Python的虚拟环境、包管理和测试等方面的知识，这些都是Python开发中非常重要的技能。希望你会继续写出更多有价值的博客！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2 如果您持续创作，完成第三篇博客，并且质量分达到 80 分以上，在评论区就有机会获得红包奖励哦！
Python代码编写规范——PEP 8
CSDN-Ada助手: 推荐 Python入门技能树：https://edu.csdn.net/skill/python?utm_source=AI_act_python

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。