分类和聚类的区别
分类和聚类的概念是比较容易混淆的。
对于分类来说,在对数据集分类时,我们是知道这个数据集是有多少种类的,比如对一个学校的在校大学生进行性别分类,我们会下意识很清楚知道分为“男”,“女”。
而对于聚类来说,在对数据集操作时,我们是不知道该数据集包含多少类,我们要做的,是将数据集中相似的数据归纳在一起。比如预测某一学校的在校大学生的好朋友团体,我们不知道大学生和谁玩的好玩的不好,我们通过他们的相似度进行聚类,聚成n个团体,这就是聚类。按照李春葆老师的话说,聚类是将数据对象的集合分成相似的对象类的过程。使得同一个簇(或类)中的对象之间具有较高的相似性,而不同簇中的对象具有较高的相异性。
#聚类的方法
根据定义我们知道,聚类,简单的来说,是通过“臭味相投”的原理来进行选择“战友”的。
那么这个“臭味相投”的原理或准则是什么呢?
前人想出了四种相似度的比对方法,即距离相似度度量、密度相似度度量、连通性相似度度量和概念相似度度量。