马氏距离

最新推荐文章于 2024-09-19 15:38:45 发布

PoemK

最新推荐文章于 2024-09-19 15:38:45 发布

阅读量1.4k

点赞数

分类专栏：数学基础文章标签：马氏距离

本文链接：https://blog.csdn.net/yskyskyer123/article/details/98197537

版权

数学基础专栏收录该内容

4 篇文章 0 订阅

订阅专栏

1. 协方差矩阵是半正定矩阵

对于向量 $x$ ,设其均值为 $u$ 。那么协方差矩阵 $\Sigma=E[(x-u)(x-u)^T]$

$\begin{aligned} y^T\Sigma y &= y^TE[(x-u)(x-u)^T]y \\ &=E[y^T(x-u)(x-u)^Ty] \\ &=E[ ((x-u)^Ty)^T (x-u)^Ty ] \\ &= E[ ||(x-y)^Ty||^2 ] \\ & \ge 0 \end{aligned}$

故协方差矩阵 $\sum$ 为半正定矩阵

2.马氏距离的定义

定义1：马氏距离可以定义为两个服从同一分布并且其协方差矩阵为 $\sum$ 的随机变量 $X$ 与 $Y$ 的差异程度

$d(x,y)=\sqrt{ (x-y)^T \Sigma^{-1} (x-y) }$

定义2：对于D维变量 $x=(x_1,x_2,x_3,...,x_D)^T$ ，其均值 $u=(u_1,u_2,...,u_D)^T$ 。

对于任意给定的任意一个 $D$ 维变量 $y$ ,马氏距离可以恒量 $y$ 与分布 $p_x$ 之间的相似程度。

$D_M(y)=\sqrt{ (y-u)^T \Sigma^{-1} (y-u) }$

3. 马氏距离的计算步骤

3.1 中心化

$X=X-\overline{X}$

3.2 计算协方差矩阵 $\Sigma$

此时 $\Sigma$ 应该是一个 $D\times D$ 大小的矩阵，反映了数据分布 $X$ 各维度之间的相关程度

3.3 对 $\Sigma$ 进行特征分解

$\Sigma \eta_i = \lambda_i \eta_i (i=1,2,3,...,D)$

并且 $\eta_i||=1$

3.4 选取 $d$ 个主成分对数据进行变换得到 $Y$

在这里插入图片描述

此时,对于新空间下第 $i$ 个基向量 $Y_i$ 有
$\begin{aligned} {Y_i^T}= \eta_i^T X (i=1,2,...,n) \end{aligned}$

所以
$\begin{aligned} Var(Y_i) &=E[Y_i^T Y_i] \\ &= \eta_i^T E[X X^T] \eta_i \\ &= \eta_i^T \Sigma \eta_i \\ &= \eta_i \lambda_i \eta_i \\ &= \lambda_i \eta_i^2 \\ &= \lambda_i \end{aligned}$

$\begin{aligned} Var(Y_i,Y_k) &=E[Y_i^T Y_k] \\ &= \eta_i^T E[X X^T] \eta_k \\ &= \eta_i^T \Sigma \eta_k \\ &= \eta_i \lambda_k \eta_k \\ &= \lambda_k \eta_i \eta_k \\ &= 0 \end{aligned}$

因此在新的向量空间内(坐标系下)，基向量(坐标轴)是线性无关的。

3.5 尺度无关

对于 $Y_i$ ,其方差 $Var(Y_i)=\lambda_i$ 。此时对于离中心点距离为某常数C形成的曲面是超椭球面。下面经过变换将 $Var(Y_i)$ 变为 $1$ ，这样对于离中心点距离为某常数C形成的曲面是超球面。换句话说，数据在Y_i方向的大小无关(也就是 $Y_i$ 方向所选的尺度无关)，形成的一定是一个球面。

将上面式子 $Y = P X$ 修正为

$\begin{aligned} Y= &\begin{bmatrix} \frac{1}{\sqrt{\lambda_1}} & \cdots & 0 \\ \vdots & \ddots & \vdots \\ 0 & \cdots & \frac{1}{\sqrt{\lambda_d}} \end{bmatrix} PX \\ &= \wedge^{-\frac{1}{2}} PX \end{aligned}$

这样左乘一个修正矩阵，相当于把数据 $Y = P X$ 下的每个轴上的大小都除以了 $\lambda_i$ ，之后数据在各维上的方差均为 $1$ ，数据分布就成了一个超球面。

4.验证Y的协方差

$\begin{aligned} E[(Y-E(Y))(Y-E(Y) )^T ]&=E[ \wedge^{ -\frac{1}{2} } P (X-E(X)) (X-E(X))^T P^T \wedge^{ -\frac{1}{2} } ] \\ &= \wedge^{ -\frac{1}{2} }P E[ (X-E(x)) (X-E(x))^T ] P^T \wedge^{ -\frac{1}{2} }\\ &= \wedge^{ -\frac{1}{2} }P \Sigma P^T \wedge^{ -\frac{1}{2} }\\ &= \wedge^{ -\frac{1}{2} } \wedge \wedge^{ -\frac{1}{2} } \\ &= I \end{aligned}$

注：

上式用到了 $\wedge =\wedge^T$ ,这是由于 $\wedge$ 是对角阵。
$\Sigma \eta_i=\lambda_i \eta_i \Rightarrow \Sigma P^T= P^T \wedge \Rightarrow P\Sigma P^T=\wedge$ (用到了 $P^T$ 是正交阵, $PP^T=I$ )
$P$ 的每一列都是 $\Sigma$ 的特征向量，由于特征向量正交，并且我们将模长化为了1，故 $P^T$ 是正交阵。

5. 计算两点距离

$\begin{aligned} (Y_1-Y_2)^T (Y_1-Y_2) &= (X_1-X_2)^T P^T \wedge^{ -\frac{1}{2} } \wedge^{ -\frac{1}{2} } P(X_1-X_2) \\ &= (X_1-X_2)^T P^T \wedge^{-1} P (X_1-X_2) \\ &= (X_1-X_2)^T \Sigma^{-1} (X_1-X_2) \\ \end{aligned}$

结果即为马氏距离的平方。

注：
$\begin{aligned} &\Sigma P^T = P^T \wedge \\ \Rightarrow& P \Sigma P^T=\wedge \\ \Rightarrow& P \Sigma P^T \wedge^{-1} = I \\ \Rightarrow& \Sigma P^T \wedge^{-1} = P^T \\ \Rightarrow& P^T \wedge^{-1} = \Sigma^{-1} P^T \\ \Rightarrow& P^{T}\wedge^{-1}P =\Sigma^{-1} \end{aligned}$
上式利用了 $P^TP=I$ ,当仅当 $P$ 为正交阵时才满足。之前已经推出了 $PP^T=I$ ,故只有当P为方阵时，才满足 $P^TP=I$ 。换言之，Y保留了X的所有主成分。