1、距离公式
1.1、闵可夫斯基距离(Minkowski)
d i s t ( X , Y ) = p ∑ i = 1 n ∣ x i − y i ∣ p dist(X,Y)=p\sqrt{\displaystyle\sum_{i=1}^{n}|x_i-y_i|^p} dist(X,Y)=pi=1∑n∣xi−yi∣p
1.2、曼哈顿距离(Manhattan)
当闵可夫斯基距离
p
=
1
p=1
p=1时
M
_
d
i
s
t
=
∑
i
=
1
n
∣
x
i
−
y
i
∣
M\_dist=\displaystyle\sum_{i=1}^{n}|x_i-y_i|
M_dist=i=1∑n∣xi−yi∣
1.3、欧氏距离(Euclidean)
当闵可夫斯基距离
p
=
2
p=2
p=2时
E
_
d
i
s
t
=
∑
i
=
1
n
(
x
i
−
y
i
)
2
E\_dist=\sqrt{\displaystyle\sum_{i=1}^{n}(x_i-y_i)^2}
E_dist=i=1∑n(xi−yi)2
标准化欧氏距离
X
∗
=
X
−
X
ˉ
s
X^*=\frac{X-\bar X}{s}
X∗=sX−Xˉ
s = ∑ i = 1 n ( s i − s ˉ ) 2 n s=\sqrt{\frac{\displaystyle\sum_{i=1}^{n}(s_i-\bar s)^2}{n}} s=ni=1∑n(si−sˉ)2
S _ E _ D = ∑ i = 1 n ( x i − y i s i ) 2 ) S\_E\_D=\sqrt{\displaystyle\sum_{i=1}^{n}(\frac{x_i-y_i}{s_i})^2)} S_E_D=i=1∑n(sixi−yi)2)
1.4、切比雪夫距离(Chebyshev)
当闵可夫斯基距离
p
=
∞
p=\infty
p=∞时
c
_
d
i
s
t
=
m
a
x
i
(
∣
x
i
−
y
i
∣
)
c\_dist={\mathbf{max} \atop {i}}(|x_i-y_i|)
c_dist=imax(∣xi−yi∣)
2、相似度公式
2.1、夹角余弦相似度
c o s ( θ ) = ∑ k = 1 n x 1 k x 2 k ∑ k = 1 n x 1 k 2 ∗ ∑ k = 1 n x 2 k 2 = a T ⋅ b ∣ a ∣ ∣ b ∣ cos(\theta) =\frac{\displaystyle\sum_{k=1}^{n}x_{1k}x_{2k}}{\sqrt{\displaystyle\sum_{k=1}^{n}x_{1k}^2}*\sqrt{\displaystyle\sum_{k=1}^{n}x_{2k}^2}} =\frac{a^T\cdot b}{|a||b|} cos(θ)=k=1∑nx1k2∗k=1∑nx2k2k=1∑nx1kx2k=∣a∣∣b∣aT⋅b
2.2、KL距离(相对熵)
D ( P ∣ ∣ Q ) = ∑ x P ( x ) l o g ( P ( x ) Q ( x ) ) D(P||Q)=\displaystyle\sum_{x}P(x)log(\frac{P(x)}{Q(x)}) D(P∣∣Q)=x∑P(x)log(Q(x)P(x))
2.3、杰卡德相似系数(Jaccard)
J ( A , B ) = ∣ A ∩ B ∣ ∣ A ∪ B ∣ J(A,B)=\frac{|A \cap B|}{|A\cup B|} J(A,B)=∣A∪B∣∣A∩B∣
d i s t ( A , B ) = 1 − J ( A , B ) = ∣ A ∪ B ∣ − ∣ A ∩ B ∣ ∣ A ∪ B ∣ dist(A,B)=1-J(A,B)=\frac{|A\cup B|-|A \cap B|}{|A\cup B|} dist(A,B)=1−J(A,B)=∣A∪B∣∣A∪B∣−∣A∩B∣
2.4、皮尔逊相关系数(Pearson)
ρ X Y = C o v ( X , Y ) D ( X ) D ( Y ) = E [ ( X − E ( X ) ) ( Y − E ( Y ) ) ] D ( X ) D ( Y ) = ∑ i = 1 n ( X i − μ X ) ( Y i − μ Y ) ∑ i = 1 n ( X i − μ X ) 2 ∗ ∑ i = 1 n ( Y i − μ Y ) 2 \rho_{\tiny XY} =\frac{Cov(X,Y)}{\sqrt{D(X)}\sqrt{D(Y)}} =\frac{E[(X-E(X))(Y-E(Y))]}{\sqrt{D(X)}\sqrt{D(Y)}} =\frac{\displaystyle\sum_{i=1}^{n}(X_i-\mu_X)(Y_i-\mu_Y)}{\sqrt{\displaystyle\sum_{i=1}^{n}(X_i-\mu_X)^2}*\sqrt{\displaystyle\sum_{i=1}^{n}(Y_i-\mu_Y)^2}} ρXY=D(X)D(Y)Cov(X,Y)=D(X)D(Y)E[(X−E(X))(Y−E(Y))]=i=1∑n(Xi−μX)2∗i=1∑n(Yi−μY)2i=1∑n(Xi−μX)(Yi−μY)
d i s t ( X , Y ) = 1 − ρ X Y dist(X,Y)=1-\rho_{\tiny XY} dist(X,Y)=1−ρXY
3、聚类算法衡量指标
3.1、均一性
一个簇中只包含一个类别的样本,则满足均一性
也可以认为就是正确率(每个聚簇中正确分类的样本数占该聚簇总样本数的比例和)
p
=
1
k
∑
i
=
1
k
N
(
C
i
=
=
K
i
)
N
(
K
i
)
p=\frac{1}{k}\displaystyle\sum_{i=1}^{k}\frac{N(C_i==K_i)}{N(K_i)}
p=k1i=1∑kN(Ki)N(Ci==Ki)
3.2、完整性
同类别样本被归类到相同簇中,则满足完整性
每个聚簇中正确分类的样本数占该类型的总样本数比例的和
p
=
1
k
∑
i
=
1
k
N
(
C
i
=
=
K
i
)
N
(
C
i
)
p=\frac{1}{k}\displaystyle\sum_{i=1}^{k}\frac{N(C_i==K_i)}{N(C_i)}
p=k1i=1∑kN(Ci)N(Ci==Ki)
3.3、V_measure
均一性和完整性的加权平均
V
β
=
(
1
+
β
2
)
⋅
p
r
β
2
⋅
p
+
R
V_\beta=\frac{(1+\beta^2)\cdot pr}{\beta^2\cdot p+R}
Vβ=β2⋅p+R(1+β2)⋅pr
3.4、轮廓系数
簇内不相似度
a
i
a_i
ai:样本
i
i
i到簇内其他样本的平均距离
a
i
a_i
ai越小样本
i
i
i越应该被聚类到该簇
簇间不相似度
b
i
j
:
b_{ij}:
bij:样本
i
i
i到其他簇所有样本的平均距离
b
i
=
m
i
n
{
b
i
1
,
b
i
2
,
…
,
b
i
k
}
b_i=min\{b_{i1},b_{i2},\dots,b_{ik}\}
bi=min{bi1,bi2,…,bik}
b
i
b_i
bi越大样本
i
i
i越不属于其它簇
轮廓系数
s
i
=
b
i
−
a
i
m
a
x
{
a
i
,
b
i
}
s_i=\frac{b_i-a_i}{max\{a_i,b_i\}}
si=max{ai,bi}bi−ai
s
i
s_i
si值越接近
1
1
1表示样本
i
i
i聚类越合理
越接近
−
1
-1
−1表示样本
i
i
i应该分类到另外的簇中
近似为
0
0
0,表示样本
i
i
i应该在边界上
所有样本的
s
i
s_i
si的均值被成为聚类结果的轮廓系数