【数据挖掘】第二章数据 2.4 数据相似性度量

人工智能lab

于 2023-10-05 16:48:54 发布

阅读量234

点赞数

分类专栏：数据挖掘文章标签：数据挖掘人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xuepengfei123_/article/details/133581199

版权

本文介绍了数据挖掘中数据相似性和相异性度量的方法，包括名义型变量、二进制属性、数值型属性和有序属性的度量标准。通过实例展示了曼哈顿距离、欧式空间距离、余弦相似性等计算方式，并讨论了如何处理多种属性类别下的距离测量，以及数据的规范化方法。

摘要由CSDN通过智能技术生成

这节课我们学习2.4节数据的相似性和相异性度量方法。

相似性主要是对两个数据对象类似程度的数值度量，目标越相似，相似值越高。

通常相似值是零到一之间的实数。相对应的相应性是衡量两个数据对象差异程度的数值度量方法。相应性的最小值为零，最大值则根据场景不同而不同，也可以根据数据规范化的方法映射到零到一的区间内。临近度的概念既可以以相似性进行表达，也可以使用相应度来进行表达。假设由 in 个数据，每个数据由 pg 为度，那么这些数据可以表示为 in 行 p 列。相应型矩阵是 ln 乘 n 的矩阵，由于数据对象之间的距离是对称的，因此相应型矩阵可以使用下三角矩阵来进行压缩存储。第 i 行第 j 列的数据，表示为第 i 个数据对象和 d 这个数据对象的距离，主对角线及数据对象 i 和自己的距离为零。下面我们针对数据的不同属性类型给出相应的数据邻近性度量方法。首先来看名义型变量的临近度度量方法。如果属性有两个或多个状态，则可以使用简单匹配方法来进行计算，令 m 表示 p 为属性中两个对象匹配一样取值的个数，则数据对象 i 和 g 的距离定义为 p 减 m 除以 p 。除此之外，还可以将属性对应于 m 的状态转化为新的二进制编码，利用马上要讲到的二进制列联表进行测量。

下面我们来看二进制属性的列联表零进度度量。我们使用二进制数据的列联表进行表达，数据对象 i 作为行有零，一两个属性，数据对象 j 作为列，同样也有零，一两个属性值，其中的 q 表示在

最低0.47元/天解锁文章

人工智能lab

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
【数据挖掘】第二章数据 2.4 数据相似性度量

我们使用二进制数据的列联表进行表达，数据对象 i 作为行有零，一两个属性，数据对象 j 作为列，同样也有零，一两个属性值，其中的 q 表示在对象 i 中取值为一，在对象界中也取之为一的频次。同理，r 表示在对象 i 中取值为一，在对象界中取值为零的频次，s 表示在对象中取值为零，在对象界中取值为一的频次，t 表示在对象 i 中取值为零，在对象界中也取之为零的频次。镇定性及距离都是大于等于零的对象 i 和 j 的距离等于 g 和 i 的距离，i 和 j 的距离小于等于通过第三个对象形成的距离之和。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

人工智能lab 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。