常见距离
对于两个n维的向量,
X
=
(
x
1
,
x
2
,
…
,
x
n
)
T
X = (x_{1},x_{2},\ldots,x_{n})^T
X=(x1,x2,…,xn)T
Y = ( y 1 , y 2 , … , y n ) T Y = (y_{1},y_{2},\ldots,y_{n})^T Y=(y1,y2,…,yn)T
欧氏距离(Euclidean Distance)
欧式距离是计算欧式空间中两点之间的距离,是最容易理解的距离计算方法。
假设X和Y都是一个n维的向量,则欧氏距离:
D
(
X
,
Y
)
=
∑
i
=
1
n
(
x
i
−
y
i
)
2
D(X,Y)=\sqrt {\sum_{i=1}^n(x_i-y_i)^2}
D(X,Y)=i=1∑n(xi−yi)2
曼哈顿距离(Manhattan Distance)
曼哈顿距离也称城市街区距离,欧氏距离表明了空间中两点间的直线距离。但是在城市中,两点之间的实际距离是要沿着道路行驶的距离,而不能计算直接穿过大楼的直线距离,曼哈顿距离就是用于度量这样的实际行驶距离。
D
(
X
,
Y
)
=
∑
i
=
1
n
∣
x
i
−
y
i
∣
D(X,Y) = \sum_{i=1}^n|x_i-y_i|
D(X,Y)=i=1∑n∣xi−yi∣
切比雪夫距离(Chebyshev distance)
切比雪夫距离是向量空间中的一种度量,将空间坐标中两个点的距离定义为其各坐标数值差绝对值的最大值。切比雪夫距离在国际象棋棋盘中表示国王从一个格子移动到此外一个格子所走的步数。
D
(
X
,
Y
)
=
lim
p
→
∞
(
∑
i
=
1
n
∣
x
i
−
y
i
∣
p
)
1
p
D(X,Y) = \lim_{p \to \infty}(\sum_{i=1}^{n}|x_i-y_i|^p)^{\frac 1p}
D(X,Y)=p→∞lim(i=1∑n∣xi−yi∣p)p1
闵可夫斯基距离(Minkowski Distance)
闵可夫斯基距离是欧式空间的一种测度,是一组距离的定义,被看作是欧式距离和曼哈顿距离的一种推广。
D
(
X
,
Y
)
=
(
∑
i
=
1
n
∣
x
i
−
y
i
∣
p
)
1
p
D(X,Y) = (\sum_{i=1}^n|x_i-y_i|^p)^{\frac 1p}
D(X,Y)=(i=1∑n∣xi−yi∣p)p1
这里的p是一个变量,当p=1时得到了曼哈顿距离;当p=2时得到了欧氏距离;当p→∞时得到切比雪夫距离。
范数
L2范数
假设X是n维的特征,则其L2范数:
∣
∣
X
∣
∣
2
=
∑
i
=
1
n
x
i
2
||X||_2 = \sqrt {\sum_{i=1}^nx_i^2}
∣∣X∣∣2=i=1∑nxi2
L0,L1,L2和Lp范数
如果X是n维向量,即
X
=
[
x
1
,
x
2
,
…
,
x
n
]
T
X = [x_1,x_2,\ldots,x_n]^T
X=[x1,x2,…,xn]T
L0范数是指向量中非0的元素的个数。
L0范数很难优化求解
L1范数是指向量中各个元素绝对值之和
∣ ∣ X ∣ ∣ 1 = ∣ x 1 ∣ + ∣ x 2 ∣ + ∣ x 3 ∣ + … + ∣ x n ∣ ||X||_1 = |x_1| + |x_2| + |x_3| + \ldots + |x_n| ∣∣X∣∣1=∣x1∣+∣x2∣+∣x3∣+…+∣xn∣
L2范数是指向量各元素的平方和然后求平方根
∣ ∣ X ∣ ∣ 2 = ( ∣ x 1 ∣ 2 + ∣ x 2 ∣ 2 + ∣ x 3 ∣ 2 + … + ∣ x n ∣ 2 ) 1 2 ||X||_2 = (|x_1|^2 + |x_2|^2 + |x_3|^2 + \ldots + |x_n|^2)^{\frac 12} ∣∣X∣∣2=(∣x1∣2+∣x2∣2+∣x3∣2+…+∣xn∣2)21
向量X的p范数是
∣ ∣ X ∣ ∣ p = ( ∣ x 1 ∣ p + ∣ x 2 ∣ p + ∣ x 3 ∣ p + … + ∣ x n ∣ p ) 1 p ||X||_p = (|x_1|^p + |x_2|^p + |x_3|^p + \ldots + |x_n|^p)^{\frac 1p} ∣∣X∣∣p=(∣x1∣p+∣x2∣p+∣x3∣p+…+∣xn∣p)p1