数学基础-距离公式、相似度公式、聚类算法衡量指标

1、距离公式

1.1、闵可夫斯基距离(Minkowski)

d i s t ( X , Y ) = p ∑ i = 1 n ∣ x i − y i ∣ p dist(X,Y)=p\sqrt{\displaystyle\sum_{i=1}^{n}|x_i-y_i|^p} dist(X,Y)=pi=1nxiyip

1.2、曼哈顿距离(Manhattan)

当闵可夫斯基距离 p = 1 p=1 p=1
M _ d i s t = ∑ i = 1 n ∣ x i − y i ∣ M\_dist=\displaystyle\sum_{i=1}^{n}|x_i-y_i| M_dist=i=1nxiyi

1.3、欧氏距离(Euclidean)

当闵可夫斯基距离 p = 2 p=2 p=2
E _ d i s t = ∑ i = 1 n ( x i − y i ) 2 E\_dist=\sqrt{\displaystyle\sum_{i=1}^{n}(x_i-y_i)^2} E_dist=i=1n(xiyi)2

标准化欧氏距离
X ∗ = X − X ˉ s X^*=\frac{X-\bar X}{s} X=sXXˉ

s = ∑ i = 1 n ( s i − s ˉ ) 2 n s=\sqrt{\frac{\displaystyle\sum_{i=1}^{n}(s_i-\bar s)^2}{n}} s=ni=1n(sisˉ)2

S _ E _ D = ∑ i = 1 n ( x i − y i s i ) 2 ) S\_E\_D=\sqrt{\displaystyle\sum_{i=1}^{n}(\frac{x_i-y_i}{s_i})^2)} S_E_D=i=1n(sixiyi)2)

1.4、切比雪夫距离(Chebyshev)

当闵可夫斯基距离 p = ∞ p=\infty p=
c _ d i s t = m a x i ( ∣ x i − y i ∣ ) c\_dist={\mathbf{max} \atop {i}}(|x_i-y_i|) c_dist=imax(xiyi)

2、相似度公式

2.1、夹角余弦相似度

c o s ( θ ) = ∑ k = 1 n x 1 k x 2 k ∑ k = 1 n x 1 k 2 ∗ ∑ k = 1 n x 2 k 2 = a T ⋅ b ∣ a ∣ ∣ b ∣ cos(\theta) =\frac{\displaystyle\sum_{k=1}^{n}x_{1k}x_{2k}}{\sqrt{\displaystyle\sum_{k=1}^{n}x_{1k}^2}*\sqrt{\displaystyle\sum_{k=1}^{n}x_{2k}^2}} =\frac{a^T\cdot b}{|a||b|} cos(θ)=k=1nx1k2 k=1nx2k2 k=1nx1kx2k=abaTb

2.2、KL距离(相对熵)

D ( P ∣ ∣ Q ) = ∑ x P ( x ) l o g ( P ( x ) Q ( x ) ) D(P||Q)=\displaystyle\sum_{x}P(x)log(\frac{P(x)}{Q(x)}) D(PQ)=xP(x)log(Q(x)P(x))

2.3、杰卡德相似系数(Jaccard)

J ( A , B ) = ∣ A ∩ B ∣ ∣ A ∪ B ∣ J(A,B)=\frac{|A \cap B|}{|A\cup B|} J(A,B)=ABAB

d i s t ( A , B ) = 1 − J ( A , B ) = ∣ A ∪ B ∣ − ∣ A ∩ B ∣ ∣ A ∪ B ∣ dist(A,B)=1-J(A,B)=\frac{|A\cup B|-|A \cap B|}{|A\cup B|} dist(A,B)=1J(A,B)=ABABAB

2.4、皮尔逊相关系数(Pearson)

ρ X Y = C o v ( X , Y ) D ( X ) D ( Y ) = E [ ( X − E ( X ) ) ( Y − E ( Y ) ) ] D ( X ) D ( Y ) = ∑ i = 1 n ( X i − μ X ) ( Y i − μ Y ) ∑ i = 1 n ( X i − μ X ) 2 ∗ ∑ i = 1 n ( Y i − μ Y ) 2 \rho_{\tiny XY} =\frac{Cov(X,Y)}{\sqrt{D(X)}\sqrt{D(Y)}} =\frac{E[(X-E(X))(Y-E(Y))]}{\sqrt{D(X)}\sqrt{D(Y)}} =\frac{\displaystyle\sum_{i=1}^{n}(X_i-\mu_X)(Y_i-\mu_Y)}{\sqrt{\displaystyle\sum_{i=1}^{n}(X_i-\mu_X)^2}*\sqrt{\displaystyle\sum_{i=1}^{n}(Y_i-\mu_Y)^2}} ρXY=D(X) D(Y) Cov(X,Y)=D(X) D(Y) E[(XE(X))(YE(Y))]=i=1n(XiμX)2 i=1n(YiμY)2 i=1n(XiμX)(YiμY)

d i s t ( X , Y ) = 1 − ρ X Y dist(X,Y)=1-\rho_{\tiny XY} dist(X,Y)=1ρXY

3、聚类算法衡量指标

3.1、均一性

一个簇中只包含一个类别的样本,则满足均一性
也可以认为就是正确率(每个聚簇中正确分类的样本数占该聚簇总样本数的比例和)
p = 1 k ∑ i = 1 k N ( C i = = K i ) N ( K i ) p=\frac{1}{k}\displaystyle\sum_{i=1}^{k}\frac{N(C_i==K_i)}{N(K_i)} p=k1i=1kN(Ki)N(Ci==Ki)

3.2、完整性

同类别样本被归类到相同簇中,则满足完整性
每个聚簇中正确分类的样本数占该类型的总样本数比例的和
p = 1 k ∑ i = 1 k N ( C i = = K i ) N ( C i ) p=\frac{1}{k}\displaystyle\sum_{i=1}^{k}\frac{N(C_i==K_i)}{N(C_i)} p=k1i=1kN(Ci)N(Ci==Ki)

3.3、V_measure

均一性和完整性的加权平均
V β = ( 1 + β 2 ) ⋅ p r β 2 ⋅ p + R V_\beta=\frac{(1+\beta^2)\cdot pr}{\beta^2\cdot p+R} Vβ=β2p+R(1+β2)pr

3.4、轮廓系数

簇内不相似度
a i a_i ai:样本 i i i到簇内其他样本的平均距离
a i a_i ai越小样本 i i i越应该被聚类到该簇

簇间不相似度
b i j : b_{ij}: bij样本 i i i到其他簇所有样本的平均距离
b i = m i n { b i 1 , b i 2 , … , b i k } b_i=min\{b_{i1},b_{i2},\dots,b_{ik}\} bi=min{bi1,bi2,,bik}
b i b_i bi越大样本 i i i越不属于其它簇

轮廓系数
s i = b i − a i m a x { a i , b i } s_i=\frac{b_i-a_i}{max\{a_i,b_i\}} si=max{ai,bi}biai

s i s_i si值越接近 1 1 1表示样本 i i i聚类越合理
越接近 − 1 -1 1表示样本 i i i应该分类到另外的簇中
近似为 0 0 0,表示样本 i i i应该在边界上
所有样本的 s i s_i si的均值被成为聚类结果的轮廓系数

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

zxx_id

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值