【数据挖掘】第二章 数据 2.4 数据相似性度量

本文介绍了数据挖掘中数据相似性和相异性度量的方法,包括名义型变量、二进制属性、数值型属性和有序属性的度量标准。通过实例展示了曼哈顿距离、欧式空间距离、余弦相似性等计算方式,并讨论了如何处理多种属性类别下的距离测量,以及数据的规范化方法。
摘要由CSDN通过智能技术生成

这节课我们学习2.4节数据的相似性和相异性度量方法。

相似性主要是对两个数据对象类似程度的数值度量,目标越相似,相似值越高。

通常相似值是零到一之间的实数。相对应的相应性是衡量两个数据对象差异程度的数值度量方法。相应性的最小值为零,最大值则根据场景不同而不同,也可以根据数据规范化的方法映射到零到一的区间内。临近度的概念既可以以相似性进行表达,也可以使用相应度来进行表达。假设由 in 个数据,每个数据由 pg 为度,那么这些数据可以表示为 in 行 p 列。相应型矩阵是 ln 乘 n 的矩阵,由于数据对象之间的距离是对称的,因此相应型矩阵可以使用下三角矩阵来进行压缩存储。第 i 行第 j 列的数据,表示为第 i 个数据对象和 d 这个数据对象的距离,主对角线及数据对象 i 和自己的距离为零。下面我们针对数据的不同属性类型给出相应的数据邻近性度量方法。首先来看名义型变量的临近度度量方法。如果属性有两个或多个状态,则可以使用简单匹配方法来进行计算,令 m 表示 p 为属性中两个对象匹配一样取值的个数,则数据对象 i 和 g 的距离定义为 p 减 m 除以 p 。除此之外,还可以将属性对应于 m 的状态转化为新的二进制编码,利用马上要讲到的二进制列联表进行测量。

下面我们来看二进制属性的列联表零进度度量。我们使用二进制数据的列联表进行表达,数据对象 i 作为行有零,一两个属性,数据对象 j 作为列,同样也有零,一两个属性值,其中的 q 表示在

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

人工智能lab

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值