聚类参考资料

最新推荐文章于 2024-08-09 17:25:41 发布

Xxmoment

最新推荐文章于 2024-08-09 17:25:41 发布

阅读量157

点赞数

分类专栏： # 概率论机器学习 # 线性代数文章标签：概率论机器学习线性代数

本文链接：https://blog.csdn.net/weixin_45091300/article/details/120342629

版权

机器学习同时被 3 个专栏收录

10 篇文章 0 订阅

订阅专栏

线性代数

2 篇文章 0 订阅

订阅专栏

概率论

1 篇文章 0 订阅

订阅专栏

文章目录

1.相似度/距离计算方法总结
2.聚类的衡量指标

1.相似度/距离计算方法总结

(1). 闵可夫斯基距离 Minkowski（其中欧式距离： $p = 2$ )

$dist(X,Y)={{\left( {{\sum\limits_{i=1}^{n}{\left| {{x}_{i}}-{{y}_{i}} \right|}}^{p}} \right)}^{\frac{1}{p}}}$

(2). 杰卡德相似系数(Jaccard)

$J(A,B)=\frac{\left| A\cap B \right|}{\left|A\cup B \right|}$

(3). 余弦相似度(cosine similarity)

$n$ 维向量 $x$ 和 $y$ 的夹角记做 $\theta$ ，根据余弦定理，其余弦值为：

$(\theta )=\frac{{{x}^{T}}y}{\left|x \right|\cdot \left| y \right|}=\frac{\sum\limits_{i=1}^{n}{{{x}_{i}}{{y}_{i}}}}{\sqrt{\sum\limits_{i=1}^{n}{{{x}_{i}}^{2}}}\sqrt{\sum\limits_{i=1}^{n}{{{y}_{i}}^{2}}}}$

(4). Pearson皮尔逊相关系数

${{\rho }_{XY}}=\frac{\operatorname{cov}(X,Y)}{{{\sigma }_{X}}{{\sigma }_{Y}}}=\frac{E[(X-{{\mu }_{X}})(Y-{{\mu }_{Y}})]}{{{\sigma }_{X}}{{\sigma }_{Y}}}=\frac{\sum\limits_{i=1}^{n}{(x-{{\mu }_{X}})(y-{{\mu }_{Y}})}}{\sqrt{\sum\limits_{i=1}^{n}{{{(x-{{\mu }_{X}})}^{2}}}}\sqrt{\sum\limits_{i=1}^{n}{{{(y-{{\mu }_{Y}})}^{2}}}}}$

Pearson相关系数即将 $x$ 、 $y$ 坐标向量各自平移到原点后的夹角余弦。

2.聚类的衡量指标

(1). 均一性： $p$

类似于精确率，一个簇中只包含一个类别的样本，则满足均一性。其实也可以认为就是正确率(每个聚簇中正确分类的样本数占该聚簇总样本数的比例和)

(2). 完整性： $r$

类似于召回率，同类别样本被归类到相同簇中，则满足完整性;每个聚簇中正确分类的样本数占该
类型的总样本数比例的和

(3). V-measure

均一性和完整性的加权平均

$\frac{(1+\beta^2)*pr}{\beta^2*p+r}$

(4). 轮廓系数

样本 $i$ 的轮廓系数： $s (i)$

簇内不相似度:计算样本 $i$ 到同簇其它样本的平均距离为 $a (i)$ ，应尽可能小。

簇间不相似度:计算样本 $i$ 到其它簇 $C_j$ 的所有样本的平均距离 $b_{ij}$ ，应尽可能大。

轮廓系数： $s (i)$ 值越接近1表示样本 $i$ 聚类越合理，越接近-1，表示样本 $i$ 应该分类到另外的簇中，近似为0，表示样本 $i$ 应该在边界上;所有样本的 $s (i)$ 的均值被成为聚类结果的轮廓系数。

$\frac{b(i)-a(i)}{max\{a(i),b(i)\}}$

(5). ARI

数据集 $S$ 共有 $N$ 个元素，两个聚类结果分别是：

$X=\{{{X}_{1}},{{X}_{2}},...,{{X}_{r}}\},Y=\{{{Y}_{1}},{{Y}_{2}},...,{{Y}_{s}}\}$

$X$ 和 $Y$ 的元素个数为：

$a=\{{{a}_{1}},{{a}_{2}},...,{{a}_{r}}\},b=\{{{b}_{1}},{{b}_{2}},...,{{b}_{s}}\}$

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-GbAKYCfL-1630813195799)(/Ari11.png)]

记： ${{n}_{ij}}=\left| {{X}_{i}}\cap {{Y}_{i}} \right|$

$ARI=\frac{\sum\limits_{i,j}{C_{{{n}_{ij}}}^{2}}-\left[ \left( \sum\limits_{i}{C_{{{a}_{i}}}^{2}} \right)\cdot \left( \sum\limits_{i}{C_{{{b}_{i}}}^{2}} \right) \right]/C_{n}^{2}}{\frac{1}{2}\left[ \left( \sum\limits_{i}{C_{{{a}_{i}}}^{2}} \right)+\left( \sum\limits_{i}{C_{{{b}_{i}}}^{2}} \right) \right]-\left[ \left( \sum\limits_{i}{C_{{{a}_{i}}}^{2}} \right)\cdot \left( \sum\limits_{i}{C_{{{b}_{i}}}^{2}} \right) \right]/C_{n}^{2}}$

Xxmoment

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
聚类参考资料

文章目录1.相似度/距离计算方法总结(1). 闵可夫斯基距离 Minkowski（其中欧式距离：p=2p=2p=2)(2). 杰卡德相似系数(Jaccard)(3). 余弦相似度(cosine similarity)(4). Pearson皮尔逊相关系数2.聚类的衡量指标(1). 均一性：ppp(2). 完整性：rrr(3). V-measure(4). 轮廓系数(5). ARI1.相似度/距离计算方法总结(1). 闵可夫斯基距离 Minkowski（其中欧式距离：p=2p=2p=2)dist(X,Y
复制链接

扫一扫