相似性度量
1 相似性度量种类
相似性度量,通常采样距离来衡量。距离的计算有以下几种:
(1)欧式距离
(2)曼哈顿距离。计算曼哈顿街区距离,而不是直线距离。
(3)皮尔森相关系数。衡量线性相关性。斯皮尔曼相关系数,衡量单调相关性。
(4)Jaccard距离。集合交集除以并集。
(5)Cos距离。余弦相似度。
(6)编辑距离。是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。
(7)汉明距离。两个等长字符串之间的汉明距离是两个字符串对应位置的不同字符的个数。例如,1011101与 1001001之间的汉明距离是2。