上次给大家介绍了分类和聚类的区别,大家看懂了吗?今天给想给大家进一步地介绍聚类。
下面的段落内容从2开始算起,1的内容来自分类和聚类的区别。
2.1 “相似”的数据对象分为一类
简单地来说, 聚类就是将“相似”的数据对象划分为一个类别的操作。
表2-1中有8个数据对象, 对应着图2-1的8个点。
表2-1 学生成绩表
图2-1 8个学生的成绩可视化图
由于聚类的类别数需要人为地设定(见1.3),那么采取不同的类别数就会有不同的聚类结果,看看下面的例子就知道啦!
① 如果你设定的类数是4,那么聚类结果会是:
图2-3 聚类结果(类别数是3)
注:在同一个方框中的数据对象同属于一个类别,下同
② 如果你设定的类别数是3,那么聚类结果会是:
图2-4 聚类结果(类别数是3)
如果你设定的类别数是2,那么聚类结果会是:
2.2 “欧几里得”距离--定义“相似”的方法
上面说了,“相似”的数据对象会被聚成一类,那么如何定义“相似”呢?
一种方法是:衡量两个数据对象之间的“距离”。而直观地理解,两个数据对象之间的距离越小,则可以说这两个数据对象就越相似。
而衡量“差距”的方法有很多种,这里介绍一下“欧几里德”距离。
假设有两个数据对象, 而这两个数据对象在坐标轴中的坐标位置是和 ,那么这两个数据对象的“欧几里得”距离的公式是:
如果您还是不懂的话,就一起来看个例子吧!
上面表2-1中的王一同学的成绩是(98,94),李力同学的成绩是(93,95),张三同学的成绩是(84,85)。
王一同学和李力同学的“欧几里德”距离是:
王一同学和张三同学的“欧几里德”距离是:
由于
那么可以说:相比于王一和张三,王一和李力之间的“相似度”更高。
注:这个“欧几里得”的概念很重要哦,很快就会在下面的内容中用到啦!
没看懂的可以在评论区留下您的吐槽哦!