距离度量的多种方法

最新推荐文章于 2024-08-11 22:32:33 发布

Mobtgzhang

最新推荐文章于 2024-08-11 22:32:33 发布

阅读量3.8k

点赞数 5

分类专栏：深度学习文章标签：人工智能机器学习概率论矩阵

本文链接：https://blog.csdn.net/zhang_pro/article/details/107097892

版权

深度学习专栏收录该内容

21 篇文章 2 订阅

订阅专栏

距离度量的多种方法

1.距离的定义
2.各种不同种类的距离
3.实现各种距离的计算
4.小结
参考

1.距离的定义

定义距离空间：设 $X$ 是非空集合，若对于 $X$ 中的任意两个元素 $x, y$ 均有一个实数与之对应，此实数记为 $d (x, y)$ ,它满足一下的3个条件：

非负性： $d(x,y)\geq{0}$ ，并且 $d (x, y) = 0$ 的充要条件是 $x = y$ ;
对称性： $d (x, y) = d (y, x)$ ;
三角不等式: $d(x,y)\leq{d(x,z)+d(z,y)}$ ,其中 $x$ 是 $X$ 中的任意元素。

则称 $d (x, y)$ 是定义在非空集合 $X$ 上 $x, y$ 的距离，并且称 $X$ 是以 $d$ 为距离的距离空间，并表示为 $(X, d)$ ,简单记为 $X$ .

2.各种不同种类的距离

2.1 常见的距离表达

首先我们这里定义在距离空间中的两个点，设点的坐标为 $\textbf{x}=(x_{1},x_{2},\dots,x_{N}),\textbf{y}=(y_{1},y_{2},\dots,y_{N})$ ，那么以下的距离表达式是基于在这个定义上的表达形式。

2.1.1 欧式(euclidean)距离(2-范数)

这是最为简单的距离表达式，也是最容易只管理解的距离度量的方法，设点的坐标为 $\textbf{x}=(x_{1},x_{2},\dots,x_{N}),\textbf{y}=(y_{1},y_{2},\dots,y_{N})$ 距离表达式为
$d(\textbf{x},\textbf{y})=\sqrt{\sum\limits_{k=1}^{N}(x_{k}-y_{k})^{2}}$

2.1.2 标准化欧氏距离

在对于长方体区域进行聚类表示的时候，普通的欧式距离公式并不能满足要求，按照普通聚类的方式表现的是圆形区域的形式，所以采用标准化欧式距离表达的是球体的形式，距离表达式为
$d(\textbf{x},\textbf{y})=\sqrt{\sum\limits_{k=1}^{N}\left(\frac{x_{k}-y_{k}}{s_{k}}\right)^{2}}$
其中 $s_{k}$ 是分量的标准差。当然也可以称这种标准化的欧式距离为带有权重值的欧氏距离。

2.1.3 曼哈顿(Manhattan)距离(1-范数)

它是一种使用在几何度量空间中使用到的一种距离，用以标注两个点在标准坐标系上的绝对轴距离总和，曼哈顿距离是超凸度量。
$d(\textbf{x},\textbf{y})={\sum\limits_{k=1}^{N}|x_{k}-y_{k}|}$

2.1.4 切比雪夫(Chebyshev)距离( $\infty$ -范数)

在数学中，切比雪夫距离或者称之为 $L\infty$ 度量是向量空间中的一种度量，即各个坐标数值差的绝对值取最大值。切比雪夫距离是由一致范数(上确界范数)所衍生的度量，也是超凸度量。详细的证明和解释过程参见参考资料[1].
$d(\textbf{x},\textbf{y})=\max{(|x_{k}-y_{k}|)}=\lim\limits_{N\rightarrow{\infty}}{\left(\sum\limits_{k=1}^{N}|x_{k}-y_{k}|^{k}\right)}^{1/k}$

2.1.5 闵可夫斯基(minkowski)距离(p-范数)

它是欧几里得距离的一种推广:
$d(\textbf{x},\textbf{y})={\left(\sum\limits_{k=1}^{N}|x_{k}-y_{k}|^{p}\right)}^{1/p}$
当 $p = 1$ 时候,则是曼哈顿距离，当 $p = 2$ 时候为欧氏距离，当 $p\rightarrow\infty$ 时候为切比雪夫距离。

2.1.6 马氏(mahalanobis)距离

马氏距离表示数据的协方差距离的一个度量，有效计算两个位置样本集合相似度的一种方法，它考虑到了各种特性之间的关系并且是尺度无关的。设均值为
$\mu=(\mu_{1},\mu_{2},\dots,\mu_{N})^{T}$

对应的观测数据为
$\textbf{x}=(x_{1},x_{2},\dots,x_{N})^{T}$

马氏距离为
$D(\textbf{x})=\sqrt{(\textbf{x}-\mu)^{T}\Sigma^{-1}(\textbf{x}-\mu)^{T}}$

马氏距离也可以定义为两个服从同一分布并且其协方差为 $\Sigma$ 的随机变量 $\textbf{x}$ 与 $\textbf{y}$ 的差异程度:
$d(\textbf{x},\textbf{y})=\sqrt{(\textbf{x}-\textbf{y})^{T}\Sigma^{-1}(\textbf{x}-\textbf{y})^{T}}$
协方差矩阵为单位矩阵的时候，为欧氏距离；协方差矩阵为对角矩阵的时候，则化为正规化的欧氏距离。

2.1.7 余弦距离

余弦距离用于比较相似度问题上，例如在词向量空间中用于比较两个词义的相似度问题，它用于衡量两个个体之间差异的大小。相比较距离度量，余弦相似度更加注重于两个向量在方向上的差异性而非距离或者长度上的差异性。公式如下所示
$d(\textbf{x},\textbf{y})=\cos\theta=\frac{\textbf{x}\cdot\textbf{y}}{||\textbf{x}||\cdot||\textbf{y}||}$

2.1.8 布雷柯蒂斯(Bray-Curtis)距离

布雷柯蒂斯距离经常用于生态学和环境科学中定义的距离，计算坐标之间的距离。距离通常取值在 $[0, 1]$ 之间。它也可以用于计算样本之间的差异性。
$d(\textbf{x},\textbf{y})=\frac{\sum\limits_{k=1}^{N}|x_{k}-y_{k}|}{\sum\limits_{k=1}^{N}|x_{k}+y_{k}|}$

2.1.9 堪培拉(Canberra)距离

它通常被认为是曼哈顿距离的加权版本。公式定义为:
$d(\textbf{x},\textbf{y})=\sum\limits_{k=1}^{N}\frac{|x_{k}-y_{k}|}{|x_{k}|+|y_{k}|}$
通常这个距离对于接近于0的变化非常敏感。与马氏距离一样，对于数据的纲量不敏感，它并没有考虑到变量之间的相互独立性，没有考虑到变量之间的相关性。

2.2 概率统计中用到的距离定义

2.2.1 KL散度

KL散度也称为相对熵，如果对于同一个随机变量 $x$ 有两个单独的概率分布 $p (x)$ 和 $q (x)$ ,那么就可以使用 $K L$ 散度来衡量这两个分布的差异性质。KL散度通常被定义为以下公式
$D_{KL}(p||q)=\sum\limits_{k=1}^{N}p(x_{k})\log\frac{p(x_{k})}{q(x_{k})}$

连续形式表示为
$D_{KL}(p||q)=\int{p(x)}\log\frac{p(x)}{q(x)}dx$
一般 $N$ 表示事件的所有可能性， $D_{KL}$ 的值越小，表示分布 $p$ 和分布 $q$ 越接近。

2.2.2 交叉熵

交叉熵经常用于机器学习中的分类问题，需要评估label和predictions之间的差距。交叉熵的公式通常定义如下所示
$H(p,q)=-\sum\limits_{k=1}^{N}p(x_{i})\log{q(x_{i})}$

连续形式表示为
$H(p,q)=-\int{p(x)}\log{q(x)}dx$
实际上交叉熵是可以由KL散度公式推导可以得到的：
$D_{KL}(p||q)=\sum\limits_{k=1}^{N}p(x_{i})\log{p(x_{i})}-\sum\limits_{k=1}^{N}p(x_{i})\log{q(x_{i})}\\ =-H[p(x)]-\sum\limits_{k=1}^{N}p(x_{i})\log{q(x_{i})}$

可见等式的前一部分就是 $p$ 的熵，等式后一部分就是交叉熵。由于等式中前一部分的值并不变，所以只需要关注后一部分的交叉熵即可。

2.2.3 JS散度

JS散度即JS距离，是KL散度的一种变形。公式如下所示
$D_{JS}(p||q)=\frac{1}{2}D_{KL}\left(p||\frac{p+q}{2}\right)+\frac{1}{2}D_{KL}\left(q||\frac{p+q}{2}\right)$

JS散度有以下的特点

取值范围是 $[0, 1]$ ，两个随机变量分布相同则是0，相反则是1.
对称性：即 $J S (p ∣ ∣ q) = J S (q ∣ ∣ p)$ .
但是也有一些缺点，当两个分布 $p, q$ 距离很远，基本上没有什么重叠的时候，那么KL散度就没有什么意义，此时的JS散度值就是一个常熟，在机器学习算法中这意味着反向传播过程中的梯度值变为0，出现梯度消失，这是一个致命的弱点。

2.2.4 F散度

在概率统计中，F散度是一个函数，用于衡量两个密度 $p, q$ 之间的区别关系，衡量两个分布相同还是不相同的程度。它们之间的F散度可以用以下的关系表达式表示
$D_{KL}(p||q)=\sum\limits_{k=1}^{N}q(x_{k})f\left[\frac{p(x_{k})}{q(x_{k})}\right]$

连续形式表示为
$D_{F}(p||q)=\int{q(x)}f\left[\frac{p(x)}{q(x)}\right]dx$

其中,函数 $f$ 必须满足以下的两个条件： $f$ 函数是一个凸函数，并且有 $f (1) = 0$ 。特别地，若 $f(x)=x\log{x}$ ,则为KL散度，若 $f(x)=-\log{x}$ ，那么就表示reverse KL散度。通常函数 $f$ 取以下的几种函数

KL-divergence: $f(x)=x\log{x}$
reverse KL-divergence: $f(x)=-\log{x}$
Pearson $\chi^{2}$ -divergence: $f(x)=(x-1)^{2},f(x)=x^{2}-1,f(x)=x^{2}-x$
Neumann $\chi^{2}$ -divergence: $f(x)=\frac{1}{x}-1,f(x)=\frac{1}{x}-x$
$\alpha$ -divergence: $f(x)=\begin{cases} \frac{4}{1-\alpha^{2}}\left(1-x^{(1+\alpha)/2}\right)&,\text{ if }\alpha\neq{\pm{1}}\\ x\ln{x}&,\text{ if }\alpha=1\\ -\ln{x}&,\text{ if }\alpha=-1 \end{cases}$
$\alpha$ -divergence(other designation): $f(x)=\begin{cases} \frac{x^{\alpha}-x}{\alpha(\alpha-1)}&,\text{ if }\alpha\neq{0},\alpha\neq{1}\\ x\ln{x}&,\text{ if }\alpha=1\\ -\ln{x}&,\text{ if }\alpha=0 \end{cases}$
Hellinger distance: $f(x)=(\sqrt{x}-1)^{2},f(x)=2(1-\sqrt{x})$
Total variation distance: $f(x)=\frac{1}{2}|x-1|$

2.2.5 巴氏距离

在统计学中，巴氏距离（巴塔恰里雅距离，Bhattacharyya distance）用于测量两离散概率分布。它常在分类中测量类之间的可分离性。在直方图相似度计算的时候，这个距离获得到的效果最好。
假设有同一随机变量 $x$ 的两个分布 $p, q$ ，公式如下所示
$D_{B}(p,q)=-\ln[B_{C}(p,q)]$

其中，离散形式如下所示
$B_{C}(p,q)=\sum\limits_{k=1}^{N}\sqrt{p(x_{k})q(x_{k})}$
连续形式如下所示
$B_{C}(p,q)=\int\sqrt{p(x)q(x)}dx$
其中 $0\leq{B_{C}}\leq{1}$ , $0\leq{D_{B}}\leq{+\infty}$
一般称 $B_{C}$ 为巴氏系数。 $B_{C}$ 系数随着因某块中有两个样本的公共成员而变大，也会随着某块中有一大片重叠的样本成员而变大。分块数的选定依赖于样本中的成员数量；如果分块太少会因过估了重叠区域而失去精确性，如果分块太多会因为造成空块而失去精确性。
如果两个样本完全没有重叠，巴氏系数将会等于0，因为每一个分块都将被0乘。这意味着完全分离的样本不能被巴氏系数单独测定出来。

2.2.6 Hellinger 距离

Hellinger 距离又称 Bhattacharyya 距离，在概率和统计学中，Hellinger 距离被用来衡量两个概率分布之间的相似性，属于 F散度的一种。公式如下所示
$d(x,y)=\frac{1}{\sqrt{2}}\sqrt{\sum\limits_{k=1}^{N}(\sqrt{x_{k}}-\sqrt{y_{k}})^{2}}$

2.3 机器学习中常用数值指标距离表达

2.3.1 逐点互信息

逐点互信息是用来衡量两个事物之间的相关性。设事件 $A, B$ 发生的概率为 $p (x), p (y)$ ,两个事件同时发生的概率为 $p (x, y)$ ,则公式如下所示
$PMI(p,q)=\log\frac{p(x,y)}{p(x)p(y)}$

显然，如果事件 $A, B$ 相互独立，那么事件 $A, B$ 一定相关。二者相关性越大，则 $p (x, y)$ 就相比于 $p (x), p (y)$ 越大。所以根据条件概率公式可以得到
$PMI(x,y)=\log\frac{p(x,y)}{p(x)p(y)}=\log\frac{p(x|y)}{p(x)}=\log\frac{p(y|x)}{p(y)}$
PMI在机器学习中经常使用到用于衡量训练模型之后label与predictions之间的关系。

2.3.2 pearson系数

统计学中pearson系数是用于度量两个变量 $\textbf{x}$ 和 $\textbf{y}$ 之间的相关性，实际上就是线性相关性，值保持在 $[- 1, 1]$ 。公式如下所示
$\rho(\textbf{x},\textbf{y})=\frac{\text{cov}(\textbf{x},\textbf{y})}{\sigma_{\textbf{x}}\sigma_{\textbf{y}}}=\frac{E[(\textbf{x}-\mu_{\textbf{x}})(\textbf{y}-\mu_{\textbf{y}})]}{\sigma_{\textbf{x}}\sigma_{\textbf{y}}}$

2.4 其他距离表示

2.4.1 汉明距离

汉明距离是用在数据传输差错控制编码中的，它表示两个长度相同的字对应位不同的数量。对两个字符串进行异或运算，并统计结果为1的个数就是汉明距离。

2.4.2 杰拉德相关系数

即Jaccard相似系数，用于比较有限样本之间的相似性与差异性。Jaccard系数值越大，样本相似度越高。设两个集合 $A, B$ ，Jaccard系数定义为 $A$ 与 $B$ 交集的大小和 $A$ 与 $B$ 并集的大小的比值:
$J(A,B)=\frac{|A\cap{B}|}{|A\cup{B}|}$
特别地，集合 $A, B$ 都为空的时候， $J (A, B)$ 定义为1。

2.4.3 Ochiai 系数

这个系数表示两个集合的交集大小与两个集合大小的集合平均值，属于余弦相似度的一种形式
$K(A,B)=\frac{|A\cap{B}|}{\sqrt{|A|\cdot{|B|}}}$

2.4.4 Hausdorff距离

设欧式空间中的两个点集合 $A=\{a_{1},a_{2},\dots\}$ , $A=\{b_{1},b_{2},\dots\}$ ,Hausdorff距离用于衡量这两个点集合之间的距离。公式如下所示
$H(A,B)=\max[h(A,B),h(B,A)]$
其中 $h(A,B)=\max\min||a-b||$ , $h(B,A)=\max\min||b-a||$ 。 $H (A, B)$ 称为双向Hausdorff距离， $h (A, B)$ 称为从点集A到点集B的单向Hausdorff距离， $h (B, A)$ 称为从点集B到点集A的单向Hausdorff距离。

2.4.5 Levenshtein 距离

Levenshtein 距离是针对二个字符串的差异程度的量化量测，量测方式是看至少需要多少次的处理才能将一个字符串变成另一个字符串。Levenshtein 距离可以用在自然语言处理中，例如拼写检查可以根据一个拼错的字和其他正确的字的Levenshtein 距离，判断哪一个（或哪几个）是比较可能的字。DNA也可以视为用A、C、G和T组成的字符串，因此Levenshtein 距离也用在生物信息学中，判断二个DNA的类似程度。
Levenshtein 距离是1965年由苏联数学家Vladimir Levenshtein发明的。Levenshtein 距离也被称为编辑距离（Edit Distance）。
设两个字符串 $a, b$ ，长度分别为 $∣ a ∣, ∣ b ∣$ ，那么它们的Levenshtein 距离为
$\text{lev}_{a,b}(i,j)=\begin{cases} \max{(j,j)}&,\text{ if }\min{(i,j)}=0\\ \min\begin{cases} \text{lev}_{a,b}(i-1,j)+1\\ \text{lev}_{a,b}(i,j-1)+1\\ \text{lev}_{a,b}(i-1,j-1)+l_{a_{i}\neq{b_{j}}} \end{cases}&,\text{otherwise}\\ \end{cases}$
其中当 $a_{i}=b_{j}$ 时候， $l_{a_{i}\neq{b_{j}}}=0$ 否则为 $l_{a_{i}\neq{b_{j}}}=1$ 。 $\text{lev}_{a,b}(i,j)$ 表示 $a$ 的前 $i$ 个字符与 $b$ 的前 $j$ 个字符之间的编辑距离。
字符串 $a, b$ 的相似度为
$\text{Sim}_{a,b}=1-\frac{\text{lev}_{a,b}(|a|,|b|)}{\max{(|a|,|b|)}}$

3.实现各种距离的计算

在python语言中经常使用到这些距离计算的包有scipy.spatial.distance，当然最好的方法就是依照公式自己写出对应的距离计算的公式。
计算的函数有scipy.spatial.distance.pdist和scipy.spatial.distance.cdist.通过metric参数指定计算距离的不同方式得到不同的距离度量值，参数的表示如下所示

函数	表示的字符串	含义
braycurtis(u, v)	braycurtis	布雷柯蒂斯(Bray-Curtis)距离
canberra(u, v)	canberra	堪培拉(Canberra)距离
chebyshev(u, v)	chebyshev	切比雪夫(Chebyshev)距离
cityblock(u, v)	cityblock	曼哈顿(Manhattan)距离
correlation(u, v)	correlation	相关系数，或者是pearson系数
cosine(u, v)	cosine(u, v)	余弦距离
euclidean(u, v)	euclidean	欧氏(euclidean)距离
hamming(u, v)	hamming	汉明距离
jaccard(u, v)	jaccard	jaccard距离
mahalanobis(u,v,VI)	mahalanobis	马氏距离
minkowski(u, v, p)	minkowski	闵可夫斯基距离
seuclidean(u, v, V)	seuclidean	标准化欧氏距离
sqeuclidean(u, v)	sqeuclidean	平方欧几里德距离
wminkowski(u, v, p, w)	wminkowski	带有权重值的闵可夫斯基距离

还有几种是输入的是有布尔值的数组

函数	表示的字符串	含义
dice(u, v)	dice	Computes the Dice dissimilarity between two boolean 1-D arrays.
kulsinski(u, v)	kulsinski	Computes the Kulsinski dissimilarity between two boolean 1-D arrays.
matching(u, v)	matching	Computes the Matching dissimilarity between two boolean 1-D arrays.
rogerstanimoto(u, v)	rogerstanimoto	Computes the Rogers-Tanimoto dissimilarity between two boolean 1-D arrays.
russellrao(u, v)	russellrao	Computes the Russell-Rao dissimilarity between two boolean 1-D arrays.
sokalmichener(u, v)	sokalmichener	Computes the Sokal-Michener dissimilarity between two boolean 1-D arrays.
sokalsneath(u, v)	sokalsneath	Computes the Sokal-Sneath dissimilarity between two boolean 1-D arrays.
yule(u, v)	yule	Computes the Yule dissimilarity between two boolean 1-D arrays.