数据挖掘学习笔记(六)

数据的相似性和相异性

  • 相似性(Similarity)
    • 两个对象相似程度的数量表示
    • 数值越高表明相似性越大
    • 通常取值范围为[0,1]
  • 相异性(Dissimilarity)(例如距离)
    • 两个对象不相似程度的数量表示
    • 数值越低表明相似性越大
    • 相异性的最小值通常为0
    • 相异性的最大值(上限)是不同的
  • 邻近性(Proximity):相似性和相异性都称为邻近性

1.数据矩阵与相异矩阵

  • 数据矩阵:对象-属性结构
    • 行-对象:n个对象
    • 列-属性:p个属性
    • 二模矩阵(Two modes)
    • \begin{bmatrix} x_{11} & ... & x_{1f} & ...& x_{1p}\\ ... & ... &... &... &... \\ x_{i1}&... &x _{if} & ... & x_{ip}\\ ... & ...& ... & ... & ...\\ x _{n1}&... &x _{nf} &... &x_{np} \end{bmatrix}
  • 相异性矩阵:对象-对象结构
    • n个对象两两之间的邻近度
    • 对称矩阵
    • 单模(Single mode)
    • \begin{bmatrix} 0 & & & & \\ d(2,1)& 0 & & & \\ d(3,1)&d(3,2) & 0& & \\ :& :& : & & \\ d(n,1)&d(n,2) &... &... &0 \end{bmatrix}

2.标称属性的邻近性度量

  • 相异性
  • d(i,j)=\frac{p-m}{p}=1-\frac{m}{p}
  • p是对象的属性总数,m是匹配的属性数目(即对象i和j状态相同的属性数)
  • 相似性
  • sim(i,j)=1-d(i,j)=\frac{m}{p}

例:计算标称属性的相异性矩阵

          对象标识符                Test
                  1                   A
                  2                   B
                  3                   C
                  4                   A

相异性计算:d(2,1)=1-0/1=1    d(3,1)=1-0/1=1    d(3,2)=1-0/1=1    d(4,1)=1-1/1=0    d(4,2)=1-0/1=1    d(4,3)=1-0/1=1

相异性矩阵:

  • 5
    点赞
  • 51
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值