Mahalanobis距离（马氏距离）的“哲学”解释

最新推荐文章于 2023-11-03 18:01:30 发布

xiaoshayu520ly

最新推荐文章于 2023-11-03 18:01:30 发布

阅读量422

点赞数

基础知识：

假设空间中两点x，y，定义：

欧几里得距离，

Mahalanobis距离，

不难发现，如果去掉马氏距离中的协方差矩阵，就退化为欧氏距离。那么我们就需要探究这个多出来的因子究竟有什么含义。

马氏距离直观含义:Mahalanobis距离是表示数据的协方差距离.

马氏距离计算公式：sqrt( (x-μ)'Σ^(-1)(x-μ) )

例子

如果我们以厘米为单位来测量人的身高，以克（g）为单位测量人的体重。每个人被表示为一个两维向量，如一个人身高173cm，体重50000g，表示为（173,50000），根据身高体重的信息来判断体型的相似程度。

我们已知小明（160,60000）；小王（160,59000）；小李（170，60000）。根据常识可以知道小明和小王体型相似。但是如果根据欧几里得距离来判断，小明和小王的距离要远远大于小明和小李之间的距离，即小明和小李体型相似。这是因为不同特征的度量标准之间存在差异而导致判断出错。

以克（g）为单位测量人的体重，数据分布比较分散，即方差大，而以厘米为单位来测量人的身高，数据分布就相对集中，方差小。马氏距离的目的就是把方差归一化，使得特征之间的关系更加符合实际情况。

图（a）展示了三个数据集的初始分布，看起来竖直方向上的那两个集合比较接近。在我们根据数据的协方差归一化空间之后，如图（b），实际上水平方向上的两个集合比较接近。

解释

以上两个例子看似和模式识别没有关系，实际上都引入了“相对论”的问题。回到问题本身，欧式距离就好比一个参照值，它表征的是当所有类别等概率出现的情况下，类别之间的距离。此时决策面中心点的位置就是两个类别中心的连线的中点。如图1所示。而当类别先验概率并不相等时，显然，如果仍然用中垂线作为决策线是不合理的，将出现判别错误（绿色类的点被判别为红色类），假设图1中绿色类别的先验概率变大，那么决策线将左移，如图2黄线。左移的具体位置，就是通过马氏距离来获得的。马氏距离中引入的协方差参数，表征的是点的稀密程度。

图1图2

从哲学上来说，用马氏距离处理数据时，不再把数据单纯的看作是冷冰冰的数字——那个引入的协方差，承认了客观上的差异性，就好像是有了人类的感情倾向，使得模式识别更加“人性化”也更加“视觉直观”。

参考:1. https://blog.csdn.net/lzhf1122/article/details/72935323

2.https://blog.csdn.net/jmy5945hh/article/details/20536929

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。