机器学习 | 距离计算

最新推荐文章于 2022-08-10 09:48:04 发布

X1AO___X1A

最新推荐文章于 2022-08-10 09:48:04 发布

阅读量1.9k

点赞数 2

分类专栏：机器学习基础无监督学习 # 聚类算法文章标签：机器学习无监督学习聚类距离计算

本文链接：https://blog.csdn.net/weixin_45488228/article/details/100593643

版权

机器学习基础同时被 3 个专栏收录

11 篇文章 2 订阅

订阅专栏

无监督学习

10 篇文章 1 订阅

订阅专栏

聚类算法

7 篇文章 0 订阅

订阅专栏

文章目录

距离计算
1. 闵可夫斯基距离（有序属性）
- 1.1 曼哈顿距离
- 1.2 欧氏距离
2. VDM 距离（无序属性）
3. MinkovDM 距离（混合属性）
4. 加权距离（重要性不同）
参考资料

机器学习 | 目录

机器学习 | 聚类评估指标

无监督学习 | KMeans与KMeans++原理

无监督学习 | KMeans之Skleaen实现：电影评分聚类

距离计算

对函数 $dist(\cdot,\cdot)$ ，若它是一个“距离度量”（distance measure），则需满足一些基本性质：^[1]

$\begin{aligned} &非负性：dist(x_i,x_j) \geq 0; \\ &同一性：dist(x_i,x_j)=0 当且仅当 x_i=x_j;\\ &对称性：dist(x_i,x_j) = dist(x_j,x_i)\\ &直递性：dist(x_i,x_j)\leq dist(x_i,x_k)+dist(x_k,x_j) 【三角不等式】\\ \end{aligned}\tag{1}$

1. 闵可夫斯基距离（有序属性）

给定样本 $x_i=(x_{i1},x_{i2},\cdots,x_{in})$ 与 $x_j=(x_{j1},x_{j2},\cdots,x_{jn})$ ，最常用的是“闵可夫斯基距离”（Minkowski distance）

$dist_{mk}(x_i,x_j)=\bigg(\sum_{u=1}^n |x_{iu}-x_{ju}|^p\bigg)^{\frac{1}{p}} \tag{2}$

对 $\geq 1$ ，式 2 明显满足公式 1 的距离度量基本性质。

当 $p\to\infty 时，则得到切比雪夫距离$

1.1 曼哈顿距离

当 $p = 1$ 时，闵可夫斯基距离即曼哈顿距离（Manhattan distance），亦称“街区距离”（city block distance）：

$dist_{man}(x_i,x_j)=\|x_i-x_j\|_1=\sum_{u=1}^n|x_{iu}-x_{ju}| \tag{3}$

1.2 欧氏距离

当 $p = 2$ 时，闵可夫斯基距离即欧式距离（Euclidean distance）：

$dist_{ed}(x_i,x_j)=\|x_i,x_j\|_2=\sqrt{\sum_{u=1}^n|x_{iu}-x_{ju}|^2} \tag{4}$

我们常将属性划分为“连续属性”（continuous attribute）和“离散属性”（categorical attribute），前者在定义域上有无穷多个可能的取值，后者在定义域上是有限个取值。

然而，在讨论距离计算时，属性上是否定义了“序”关系更为重要。例如定义域 {1,2,3} 的离散属性与连续属性的性质更接近一些，能直接在属性值上结算距离：“1”与“2”比较接近、与“3”比较远，这样的属性称为“有序属性”（ordinal attribute）；而定义域 {飞机, 火车, 轮船} 这样的离散属性则不能直接在属性值上计算距离，称为“无序属性”（non-ordinal attribute）。

显然，闵可夫斯基距离可用于连续属性和有序属性。

连续属性亦称“数值属性”（numerical attribute），“离散属性”亦称“列名属性“（nominal attribute）

2. VDM 距离（无序属性）

对无需属性可采用VDM（Value Difference Metric）。令 $m_{u,a}$ 表示在属性 $u$ 上取值为 $a$ 的样本数， $k$ 为样本数， $m_{u,a,i}$ 表示在第 $i$ 个样本簇中在属性 $u$ 上取值为 $a$ 的样本数， $k$ 为样本簇数，则属性 $u$ 上两个离散值 $a$ 与 $b$ 之间的 VDM 距离为：

$VDM_p(a,b)=\sum_{i=1}^k\bigg|\frac{m_{u,a,i}}{m_{u,a}}-\frac{m_{u,b,i}}{m_{u,b}}\bigg|^p \tag{5}$

3. MinkovDM 距离（混合属性）

将闵可夫斯基距离和 VDM 距离结合即可处理混合属性。假定有 $n_c$ 个有序属性、 $n-n_c$ 个无序属性，不失一般性，令有序属性排列在无序属性之前，则

$MinkovDM_p(x_i,x_j)=\bigg( \sum_{u=1}^{n_c}|x_{iu}-x_{ju}|^p + \sum_{u=n_c+1}^{n} VDM_p(x_{iu},x_{ju}) \bigg)^{\frac{1}{p}} \tag{6}$

4. 加权距离（重要性不同）

当样本空间中不同属性的重要性不同时，可使用“加权距离”（weighted distance）。

以加权闵可夫斯基距离为例：

$dist_{wmk}(x_i,x_j)=\bigg(\sum_{u=1}^n w_u|x_{iu}-x_{ju}|^p\bigg)^{\frac{1}{p}} \tag{7}$

参考资料

[1] 周志华. 机器学习[M]. 北京: 清华大学出版社, 2016: 199-200.

X1AO___X1A

关注

2
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
机器学习 | 距离计算

文章目录距离计算1. 闵可夫斯基距离（连续属性、有序属性）1.1 曼哈顿距离1.2 欧氏距离2. VDM 距离（无序属性）3. MinkovDM 距离（混合属性）4. 加权距离（重要性不同）参考资料距离计算对函数 dist(⋅,⋅)dist(\cdot,\cdot)dist(⋅,⋅) ，若它是一个“距离度量”（distance measure），则需满足一些基本性质：[1](1)非负性：di...
复制链接

扫一扫

专栏目录