欧式距离和马氏距离的关系（公式推导）

最新推荐文章于 2024-01-25 16:44:35 发布

宇宙超级无敌小菜鸡

最新推荐文章于 2024-01-25 16:44:35 发布

阅读量4.5k

点赞数 8

文章标签：线性代数机器学习数据挖掘算法

本文链接：https://blog.csdn.net/wsjjason/article/details/108030237

版权

欧氏距离（Euclidean Distance）与马氏距离（Mahalanobis Distance）

欧氏距离

度量样本和样本分布间的距离 $\begin{aligned} d(x,\mu)=\sqrt{(x-\mu)^T(x-\mu)} \end{aligned}$ 其中 $x=(x_1,x_2,…,x_n)^T$ 是n维向量， $\mu=(\mu_1,\mu_2,…,\mu_n)^T$ 是样本分布的中心，即 $\begin{aligned} d(x,\mu)=\sqrt{\sum_{i=1}^n(x_i-\mu_i)^2} \end{aligned}$
度量样本和样本的距离 $\begin{aligned} d(x,y)=\sqrt{(x-y)^T(x-y)} \end{aligned}$ 其中， $x=(x_1,x_2,…,x_n)^T$ 、 $y=(y_1,y_2,…,y_n)^T$ 均为n维向量，即 $\begin{aligned} d(x,y)=\sqrt{\sum_{i=1}^n(x_i-y_i)^2} \end{aligned}$

协方差

对于m个一维数据 $x_1,x_2,…,x_m)$ ,它们的方差为： $\begin{aligned} \sigma^2=\frac{\sum_{i=1}^m(x_i-\mu)^2}{m-1} \end{aligned}$ 方差反应数据的离散程度，但高维数据没有方差的概念，高维数据集通常使用协方差描述数据各个维度之间的相关性。
对m个n维数据 $\begin{aligned} X=\left[ \begin{matrix} x_{11}&x_{21}&…&x_{m1} \\ x_{12}&x_{22}&…&x_{m2} \\ …&…&…&… \\ x_{1n}&x_{2n}&…&x_{mn} \end{matrix} \right] =\left[ \begin{matrix} X_1\\ X_2\\…\\X_n \end{matrix} \right] \end{aligned}$ $X$ 的每一列对应样本集中的一个n维数据，数据集中共包括m个样本，其中每一维的均值为 $\mu_i=E(X_i)$ 。该样本集的协方差矩阵为： $\begin{aligned} S=\frac{(X-\mu)(X-\mu)^T}{m-1} \end{aligned}$

马氏距离

度量样本和样本分布间的距离 $\begin{aligned} d=\sqrt{(x-\mu)^TS^{-1}(x-\mu)} \end{aligned}$ 其中 $x=(x_1,x_2,…,x_n)^T$ 是n维向量， $\mu=(\mu_1,\mu_2,…,\mu_n)^T$ 是样本分布的中心，S是样本集的协方差矩阵。

实例分析

在这里插入图片描述已知一个聚类，A为该聚类的聚类中心，聚类的其他样本由红色标出。对于样本B、C，如果要判断谁和样本A的距离最近，可以采用以下两种方式：

使用欧式距离判断，显然C离A更近。但此时并没有考虑数据的分布，默认数据呈圆形分布，即默认数据各维的方差相同。因此使用欧式距离进行判断并不完善。
使用马氏距离判断，充分考虑数据各维的相关性和各维的方差，此时应为B距离A更近。

使用欧式距离时，不考虑数据不同维度的方差，也不考虑数据不同维度的相关性。 因此数据集已知时，通常使用马氏距离代替欧式距离。

深入理解（公式推导）

原空间的马氏距离等价于变换空间中的欧式距离。为了方便理解，后面的内容仅讨论二维数据，且各维的均值都为0（数据已中心化）。

原空间
在原空间中，数据集各维之间存在相关性，且各维的方差存在差异。此时某个样本 $x$ 到聚类中心的马氏距离为： $\begin{aligned} d=\sqrt{x^TS_X^{-1}x} \end{aligned}$ 原空间中样本集的协方差矩阵为： $\begin{aligned} S_X=E(XX^T)= \left[ \begin{matrix} \sigma_{x_1}^2&cov(x_1,x_2)\\ cov(x_2,x_1)&\sigma_{x_2}^2 \end{matrix} \right] \end{aligned}$
消除数据各维的相关性，即对数据集进行正交变换
令 $y = A x$ ，其中 $A$ 是正交矩阵，即 $\begin{aligned} x=A^{-1}y=A^Ty \end{aligned}$ 该空间中样本集的协方差矩阵为: $\begin{aligned} S_Y=E(YY^T)=E(Axx^TA^T)=AS_XA^{-1} \end{aligned}$ 即：
$\begin{aligned} S_X=A^{-1}S_YA \end{aligned}$ 在当前空间中，样本集的协方差矩阵为： $S_Y=\left[ \begin{matrix} \sigma_{y_1}^2&0\\ 0&\sigma_{y_2}^2 \end{matrix} \right]$ 也就是说，在当前空间中，数据的各维不相关。
各维方差归一化
令 $\left[ \begin{matrix} z1\\z2 \end{matrix} \right]= \left[\begin{matrix} \frac{1}{\sigma_1}&0\\0&\frac{1}{\sigma_2} \end{matrix} \right] \left[\begin{matrix} y_1\\y_2 \end{matrix}\right]=\left[\begin{matrix} \frac{y_1}{\sigma_1}\\\frac{y_2}{\sigma_2} \end{matrix}\right]$ 为了方便表示，令 $B=\left[ \begin{matrix} \frac{1}{\sigma_1}&0\\0&\frac{1}{\sigma_2} \end{matrix} \right]$ 则： $z = B y$ ， $y=B^{-1}z$ 。在该空间中，样本集的协方差矩阵为： $\begin{aligned} S_Z=E(ZZ^T)=E(BYY^TB^T)=BS_YB^T \end{aligned}$ 即： $\begin{aligned} S_Y=B^{-1}S_ZB^{-1} \end{aligned}$ 在当前空间中，样本集的协方差矩阵为：
$S_Z=\left[ \begin{matrix} 1&0\\ 0&1 \end{matrix} \right]$ 也就是说，在当前空间中，数据各维的方差均为1。

综上所述，原空间的马氏距离为： $\begin{aligned} d&=\sqrt{x^TS_X^{-1}x}\\&=\sqrt{y^TAA^{-1}S_Y^{-1}AA^Ty}\\&=\sqrt{y^TS_Y^{-1}y}\\&=\sqrt{z^TB^{-1}BS_ZBB^{-1}z}\\&=\sqrt{z^TS_Zz}\\&=\sqrt{z^Tz} \end{aligned}$ 也就是说，原空间的马氏距离等价于转换空间中的欧式距离。在转换空间中，数据各维之间不相关且数据各维的方差均为1。

马氏距离的优势

当数据分布已知时，通常使用马氏距离代替欧式距离。马氏距离适用于数据各维存在相关性或数据各维方差存在差异（数据分布呈椭圆形）的情况。

宇宙超级无敌小菜鸡

关注

8
点赞
踩
26

收藏

觉得还不错? 一键收藏
0
评论
欧式距离和马氏距离的关系（公式推导）

欧氏距离（Euclidean Distance）与马氏距离（Mahalanobis Distance）欧氏距离度量样本和样本分布间的距离d(x,μ)=(x−μ)T(x−μ)\begin{aligned}d(x,\mu)=\sqrt{(x-\mu)^T(x-\mu)}\end{aligned}d(x,μ)=(x−μ)T(x−μ)其中x=(x1,x2,…,xn)Tx=(x_1,x_2,…,x_n)^Tx=(x1,x2,…,xn)T是n维向量，μ=(μ1,μ2,…,μn)T\mu=(\mu
复制链接

扫一扫