一. 何为分类
分类在我们日常生活中其实很普遍,其实我们与生俱来的能力就包括分类,从我们小时候慢慢长大,大脑就慢慢训练怎么分类,设置模型,对应模型这些,这就是一种分类的过程。比如说,我们在路上看见了车,车这这么一种物体,我们大脑看见这种物体之后,根据物体的大小,我们可以分为大汽车,小汽车,巨型车等等,这就是一种分类的过程。也可以根据车型的价格分为低端车,中端车,豪华车等等。这些其实都是一种分类的过程。分类就是我们大脑在给车这个大范畴里面对各种车型进行打标签的过程。那么在我们数据分析这么学科中,分类也是一样的概念。我们从庞大的数据集中,通过某种算法,某种模型的训练,导出让数据集对应某种特征亦或某种标签的结果。
二. 何为聚类
说到聚类,可能这个名词在我们生活中并不是那么常见。但是在我们数据分析,机器学习中便是和分类一样常见的名词了。与分类不同,聚类则是一种无标签的识别过程,是一种不指定标签类,只管划分类别,不管对不对应标签的划分过程。它的目的是使得属于同一个组或者簇的样本之间的距离足够小,而使不属于同一组或者簇的样本之间的距离足够大。
三. 区别
分类 | 聚类 |
是一种有监督式的学习过程 | 是一种无监督 |
其初始和结果都是有标签式标记 | 其初始和结果没有标签式标记 |
其结果是有意义的分类 | 其结果是无意义的分类 |
是示例式学习 | 是观察式学习 |
四. 聚类的常用算法
1. 划分聚类 k-means、k-medoids、k-modes、k-medians、kernel k-means
2. 层次聚类 Agglomerative 、divisive、BIRCH、ROCK、Chameleon
3. 密度聚类 DBSCAN、OPTICS
4. 网格聚类 STING
5. 模型聚类 GMM
6. 图聚类 Spectral Clustering(谱聚类)
五. k-means算法详解