在数据挖掘中,我们经常需要计算样本之间的相似度(Similarity ),我们通常的做法是计算样本之间的距离,本文对距离计算方法做以下总结。
距离计算方法
1.欧式距离EuclideanDistance
欧式距离:也称欧几里得距离,在一个N维度的空间里,求两个点的距离,这个距离肯定是一个大于等于零的数字,那么这个距离需要用两个点在各自维度上的坐标相减,平方后加和再开方。
(1)二维平面上两点a(x1,y1),b(x2,y2)之间的欧式距离公式:
(2) n维空间上两点a(x1,x2……..xn),b(y1,y2……..yn)的欧式距离公式:
2. 曼哈顿距离(ManhattanDistance)
曼哈顿距离也叫”曼哈顿街区距离”。想象你在曼哈顿街道上,从一个十字路口开车到另一个十字路口,驾驶距离就是这个“曼哈顿距离”。
(1)二维平面上两点a(x1,y1),b(x2,y2)之间的曼哈顿距离公式:
(2) n维空间上两点a(x1,x2……..xn),b(y1,y2……..yn)的曼哈顿距离公式: