相似度与距离

目录

属性类型:

数据结构:

数据矩阵:

相异度矩阵:

相似度和距离:

 度量数据的相似性和相异性:

 标称属性的邻近性度量:

二元属性的邻近性度量

序数属性的邻近性度量

数据的相异性:闵可夫斯基


邻近性:相似性和相异性统称为邻近性

属性类型:

标称属性:值是一些符号或者事务的名称,每个值代表某种类别、编码或者状态,因此标称属性又被看做是分类的,值是无意义的序,并且不是定量的,因此找平均值和中位数是没有意义的,比如:hair_color(头发的颜色)就是。

二元属性:是一种标称属性,只有两个类别状态:0或者1,0通常表示该属性不出现,而1表示出现。二元属性也有对称的二元属性和非对称的二元属性,如果状态的结果不是同等重要的,则称为非对称的二元属性。

序数属性:其可能的值之间具有有意义的量,例如:饮料量的大中小,军衔的等级,成绩的等级,等等。

数值属性:1.区间标度属性:用相等的单位尺度度量

                  2.比率标度属性:属性是具有固有零点的数据属性。

数据结构:

参考:

数据矩阵与相异性矩阵_cicidan的博客-CSDN博客_相异性矩阵

数据矩阵

n*p 矩阵(n个对象,每个对象有p个属性)

相异度矩阵

存储n个对象两两之间的相似性,表现形式是一个n×n维的矩阵。d(i,j)是对象i和j之间相异性的量化表示,通常为非负值,两个对象越相似或“接近”,其值越接近0,越不同,其值越大,且d(i,j)= d(j,i),d(i,i)=0。

例如:

主对角线元素为0,因为对象与对象本身被认为是没有差异的

d(i,j) = d(j,i),因此相异性矩阵是对称矩阵

相似度和距离:

现在有4个数据点:x1、x2、x3、x4

它们的数据矩阵:

相异性矩阵(欧几里得距离)

 度量数据的相似性和相异性:

数据矩阵由两种实体或“事物”组成,即行(代表对象)和列(代表属性)。因而,数据矩阵经常经常被称为二模矩阵相异性矩阵只包含一类,因而被称为单模矩阵。

 标称属性的邻近性度量:

        两个对象i和j之间的相异性可以根据不匹配率来计算:

d( i , j ) = (p-m) / p


m : p个变量中匹配的个数(表示对象i与对象j之间有相同属性值的个数)
p : 全部变量的个数(标称属性的个数,而非某一个属性的值的个数)

        其中,m是匹配的数目(即i和j取值相同状态的属性数),而p是刻画对象的属性总数。我们可以通过赋予m较大的权重,或者赋给有较多状态的属性的匹配更大的权重来增加m的影响。

二元属性的邻近性度量

一种方法涉及由给定的二元数据计算相异性矩阵。如果所有的二元都被看做具有相同的权重,则我们得到一个两行两列的列联表——表2.3,其中q是对象i和j都取1的属性数,r是在对象i中取1、在对象j表2.3 二元属性的列联表对象i对象j中取0的属性数,s是在对象i中取0、在对象j中取1的属性数,而t是对象i和j都取0的属性数。属性的总数是p,其中p=q+r+s+t。

 回忆一下,对于对称的二元属性,每个状态都同样重要。基于对称二元属性的相异性称做对称的二元相异性。如果对象i和j都用对称的二元属性刻画,则i和j的相异性为

对称的相异性:

对于非对称的二元属性,两个状态不是同等重要的;如病理化验的阳性(1)和阴性(0)结果。给定两个非对称的二元属性,两个都取值1的情况(正匹配)被认为比两个都取值0的情况(负匹配)更有意义。因此,这样的二元属性经常被认为是“一元的”(只有一种状态)。基于这种属性的相异性被称为非对称的二元相异性,其中负匹配数t被认为是不重要的,因此在计算时被忽略,如下所示:

非对称的相异性:

互补地,我们可以基于相似性而不是基于相异性来度量两个二元属性的差别。例如,对象i和j之间的非对称的二元相似性可以用下式计算:

(2.15)式的系数sim(i,j)被称做Jaccard系数,它在文献中被广泛使用。

例子:

  name是对象标识符,gender是对称属性,其余的属性都是非对称二元的。

  对于非对称属性,值Y(yes)和P(positive)被设置为1,值N(no或negative)被设置为0。

  Jack、Mary和Jim两两之间的距离如下:

因为具有最高的相异性,所以Jim和Mary不大可能患类似的疾病。而Jack和Mary最可能患类似的疾病。

 式子是怎么得来的:

根据前面提到的二元属性的列联表:

        因为name是对象标识符,gender是对称属性,其余的属性都是非对称二元的。所以只考虑gender、fever、cough、test1、test2、test3、test4这几个非对称属性。

10
1qr
0st

先以Jack和Jim为列子,列出这两个对象的二元属性列联表:

q是Jack和Jim非对称属性取值相同的属性个数,r、s、t依次类推

得出:

10
111
013

所以根据公式:

d(Jack,Jim) = 1+1/1+1+1

序数属性的邻近性度量

数据的相异性:闵可夫斯基

计算数值属性刻画的对象的相异性的距离度量:欧几里得距离,曼哈顿距离,闵可夫斯基距离。

最流行的距离度量是欧几里得距离(即,直线或“乌鸦飞行”距离)。令i=(xi1,xi2,…,xip)和j=(xj1,xj2,…,xjp)是两个被p个数值属性描述的对象。对象i和j之间的欧几里得距离定义为:

另一个著名的度量方法是曼哈顿(或城市块)距离,之所以如此命名,是因为它是城市两点之间的街区距离(如,向南2个街区,横过3个街区,共计5个街区)。其定义如下:

欧几里得距离和曼哈顿距离都满足如下数学性质:

非负性:d(i,j)≥0:距离是一个非负的数值。

同一性:d(i,i)=0:对象到自身的距离为0。

对称性:d(i,j) = d(j,i):距离是一个对称函数。

三角不等式:d(i,j)≤d(i,k)+d(k,j):从对象i到对象j的直接距离不会大于途经任何其他对象k的距离。

满足这些条件的测度称做度量(metric)。注意非负性被其他三个性质所蕴含。
 

闵可夫斯基距离:

当p=2时,闵可夫斯基距离即欧氏距离(Euclidean distance) :

当p=1时,闵可夫斯基距离即曼哈顿距离(Manhattan distance),亦称“街区距离”(city block distance):

 

当p→∞时,闵可夫斯基距离即切比雪夫距离(Chebyshev distance):

混合类型属性的相异性

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

阿洋太爱大数据

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值