距离度量分类体系

本篇文章并不打算描述所有这些类别,要具体阐述它们的细节和意义实在有点困难。这个大纲的目的,第一:提供一个貌似详细的距离度量的分类体系,列出相关的关键字。 第二:就像一个词典一样供参考和查阅,如果需要了解具体的细节,可以参考wiki或者具体文献。     

大纲: 
1. 相似性和不相似性的定义 
2. 预备概念 
3. 距离度量 
    3.1  Numerical Data 
          3.1.1 欧拉距离(Euclidean Distance) 
          3.1.2 曼哈顿距离(Manhattan Distance) 
          3.1.3.最大距离(Maximum Distance) 
          3.1.4 明考夫斯基距离(MinKowski Distance) 
          3.1.5 马式距离(Mahalanobis Distance) 
          3.1.6 平均距离(Average Distance) 
          3.1.7 其他距离:Chord Distance,Geodesic distance,….. 
    3.2 Categorical Data 
         3.2.1. 简单匹配距离(Simple matching Distance) 
         3.2.2  其他匹配距离 
    3.3. Binary Data 
         3.3.1 Jaccard, Dice, Pearson, Yule, Russel-Rao, Sokal-Michener, Rogers-Tanimoto, Rogers-Tanimoto-a, Kulzinsky. 
    3.4  Mixed-type Data 
    3.5  Time Series Data 
    3.7  Other 
          3.7.1 Based on Longest Common Subsequence 
          3.7.2 Based on Probability Models 
          3.7.3 Based on Landmark Model 
          3.7.4 Based on Link Model 
    3.8 概率变量的相似性 
        3.8.1 Pearson 协方差 
        3.8.2 卡方统计(Chi-square Statistic) 
        3.8.3 基于最优预测( Optimal Class Prediction) 
        3.8.4 基于组的距离度量(Group-based Distance) 
          

定义: 
一直误解相似(similarity)度量和不相似(dissimilarity)度量,相似性度量在以前的一篇中已经描述过了,通常情况下不相似度量满足下面的三条性质:

1) 0<= s(x,y) <=1 
2)   s(x,x) = 1 
3)   s(x,y) = s(y,x)

当然,还有更多的相似度量和不相似度量方法(@see  representation of similarity matrices by trees)

预备概念: 
1. Proximity Matrix 
    给定数据集合D={x1,x2,x3,…,xn} 
    Mdis(D) = (dij)   dij = d(xi, xj)  
    Msim(D) = (sij)   sij = s(xi, xj)


2. 离差矩阵Scatter Matrix 
   

a478ea0c50c7b5d7cdedab8f6c26e319

a478ea0c50c7b5d7cdedab8f6c26e319 或者 a478ea0c50c7b5d7cdedab8f6c26e319 Cn是中心矩阵 Centering Matrix :

a478ea0c50c7b5d7cdedab8f6c26e319
3. 协方差矩阵Covariance Matrix:

a478ea0c50c7b5d7cdedab8f6c26e319

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值