【机器学习】聚类算法、社区发现

ysq96

已于 2022-09-27 20:17:40 修改

阅读量8.6k

点赞数 16

分类专栏：机器学习

于 2020-07-14 15:35:06 首次发布

本文链接：https://blog.csdn.net/ysq96/article/details/107204889

版权

前言

最近方向是团案挖掘，关于聚类算法和社区发现，其实之前不怎么了解，最近得补补了。

聚类和社区发现

首先要先明白这两者的差别。

[参考地址]

社团检测通常是指将网络中联系紧密的部分找出来，这些部分就称之为社团，那么也可以认为社团内部联系稠密，而社团之间联系稀疏。显而易见，其中有一个非常重要的点，稠密是如何定义的。不管现在想到的定义是什么，但都包含顶点，边，度，或许还有路径这些字眼，它们有一个共同的特征–网络的结构。所以，社团检测侧重于找到网络中联系紧密的部分，而经常忽略节点的属性（attributes）。

聚类，顾名思义是将属于同一类的目标聚在一起，通常在聚类之前我们是不知道目标有哪些类型，这也是一种典型的无监督学习方法。那么现在来想想我们熟知的聚类方法：k-means，层次聚类等。其中，最核心的一个部分是计算两个目标之间的距离（或者称为相似度），距离近则它俩是一类，距离远，那就自成一派，或者去找其它距离近的。当然，距离近只是其中一种方法，还有距离远或者怎么样，就看自己的判断。判断标准不是讨论的重点，重点是如何计算距离。欧式距离，曼哈顿距离，余弦相似度等，都是直接用目标特征构成的向量来计算的，没有考虑目标的边，度。所以，聚类侧重于找到一堆属性相似的目标，从而忽略了目标与目标之间的联系。

两者之间的关系已经很清楚啦，社团检测和聚类存在区别，但是呢，两者又是可以结合起来的。比如，我们现在有一个网络，只知道顶点和边的情况，顶点的属性是未知的。那么在做社团检测的时候，可以将顶点与顶点之间的关系构成一个邻接矩阵，通过一系列变化或者就这个邻接矩阵而言，将每个行看作一个属性，每个列看作目标，就可以很轻松的转为聚类，用聚类的方法求解。当邻接矩阵高维时，还可以先做降维处理。所以，两者并没有完全独立，只是考虑的角度不同，可以结合使用。现在社交网络方向有一个很热门的就是用attributes来辅助进行社团检测，是对传统的社团检测和聚类方法的一种改进，两者优势互补。