样本相似性度量(欧几里得距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离、标准化欧氏距离)
在分类过程中,常常需要估算不同样本直接的 Similarity Measurement (相似性度量)。
此时常用的方法就是计算两个样本直接的 Distance(距离)。
常用方法有:
- 欧几里得距离(Euclidean Distance)
欧几里得距离(Euclidean Distance),简称欧氏距离,又称欧几里得度量(euclidean metric)。
指 m 维空间中两个点之间的真实距离,或者向量的自然长度(即该点到原点的距离)。在二维和三维空间中的欧氏距离就是两点之间的实际距离。
在欧几里得空间中,点 x = ( x 1 , ⋯   , x n ) x=\left(x_{1}, \cdots, x_{n}\right) x=(x1,⋯,xn) 和 y = ( y 1 , ⋯   , y n ) y=\left(y_{1}, \cdots, y_{n}\right) y=(y1,⋯,yn) 之间的欧几里得距离为:
d ( x , y ) : = ( x 1 − y 1 ) 2 + ( x 2 − y 2 ) 2 + ⋯ + ( x n − y n ) 2 = ∑ i = 1 n ( x i − y i ) 2 d(x, y) :=\sqrt{\left(x_{1}-y_{1}\right)^{2}+\left(x_{2}-y_{2}\right)^{2}+\cdots+\left(x_{n}-y_{n}\right)^{2}}=\sqrt{\sum_{i=1}^{n}\left(x_{i}-y_{i}\right)^{2}} d(x,y):=(x1−y1)2+(x2−y2)2+⋯+(xn−yn)2=i=1∑n(xi−yi)2
当 y y y 点为原点时,即为向量 x ⃗ \vec{x} x 的自然长度(该点到原点的距离)。
向量 x ⃗ \vec{x} x 的自然长度:
∥ x ⃗ ∥ 2 = ∣ x 1 ∣ 2 + ⋯ + ∣ x n ∣ 2 \|\vec{x}\|_{2}=\sqrt{\left|x_{1}\right|^{2}+\cdots+\left|x_{n}\right|^{2}} ∥x∥2=∣x1∣2+⋯+∣xn∣2
由 n n n 维空间的欧几里得距离公式可以推出:
二维平面上两点 a ( x 1 , y 1 ) a\left(x_{1},y_{1}\right) a(x1,y1) 与 b ( x 2 , y 2 ) b\left(x_{2},y_{2}\right) b(x2,y2