数据的相似性和相异性
- 相似性(Similarity)
- 两个对象相似程度的数量表示
- 数值越高表明相似性越大
- 通常取值范围为[0,1]
- 相异性(Dissimilarity)(例如距离)
- 两个对象不相似程度的数量表示
- 数值越低表明相似性越大
- 相异性的最小值通常为0
- 相异性的最大值(上限)是不同的
- 邻近性(Proximity):相似性和相异性都称为邻近性
1.数据矩阵与相异矩阵
- 数据矩阵:对象-属性结构
- 行-对象:n个对象
- 列-属性:p个属性
- 二模矩阵(Two modes)
- 相异性矩阵:对象-对象结构
- n个对象两两之间的邻近度
- 对称矩阵
- 单模(Single mode)
2.标称属性的邻近性度量
- 相异性
- p是对象的属性总数,m是匹配的属性数目(即对象i和j状态相同的属性数)
- 相似性
例:计算标称属性的相异性矩阵
对象标识符 | Test |
1 | A |
2 | B |
3 | C |
4 | A |
相异性计算:d(2,1)=1-0/1=1 d(3,1)=1-0/1=1 d(3,2)=1-0/1=1 d(4,1)=1-1/1=0 d(4,2)=1-0/1=1 d(4,3)=1-0/1=1
相异性矩阵: