聚类算法
老实人小李
这个作者很懒,什么都没留下…
展开
-
硬聚类,软聚类,及之间的关系
硬聚类和软聚类是在无监督学习中使用的两种方法,特别是在聚类分析中,将相似的数据点组合在一起。这两种方法都有各自的优势和劣势,它们在数据分析中的作用也不同。让我们来讨论一下这两种聚类技术之间的关系。原创 2023-03-30 17:37:16 · 1886 阅读 · 1 评论 -
超详细EM算法举例及推导
先学习一下极大似然1 EM算法理解1.1 问题描述上面我们先假设学校所有学生的身高服从正态分布 N(μ,σ2)N(\mu,\sigma^2)N(μ,σ2) 。实际情况并不是这样的,男生和女生分别服从两种不同的正态分布,即男生 ∈N(μ1,σ12)\in N(\mu_1,\sigma_1^2)∈N(μ1,σ12) ,女生 ∈N(μ2,σ22)\in N(\mu_2,\sigma_2^2)∈N(μ2,σ22) ,(注意:EM算法和极大似然估计的前提是一样的,都要假设数据总体的分布,如果不知道数据分原创 2020-09-18 21:01:11 · 3994 阅读 · 0 评论 -
基于平方误差的聚类算法(Squared error-based clustering algorithm)——K-means算法详解
1 牧师-村名模型K-means 有一个著名的解释:牧师—村民模型:有四个牧师去郊区布道,一开始牧师们随意选了几个布道点,并且把这几个布道点的情况公告给了郊区所有的村民,于是每个村民到离自己家最近的布道点去听课。听课之后,大家觉得距离太远了,于是每个牧师统计了一下自己的课上所有的村民的地址,搬到了所有地址的中心地带,并且在海报上更新了自己的布道点的位置。牧师每一次移动不可能离所有人都更近,有的人发现A牧师移动以后自己还不如去B牧师处听课更近,于是每个村民又去了离自己最近的布道点……就这样,牧师每原创 2020-09-17 10:15:45 · 1326 阅读 · 0 评论 -
层次聚类(Hierarchical Clustering)——CURE算法详解及举例
1 CURE聚类概述CURE聚类是选择多个代表点来表示一个簇,是一种基于质心和基于代表对象之间的中间策略。2 算法步骤从源数据对象中抽取一个随机样本S;将样本S分割成一组划分;对每个划分局部的聚类;通过随机样本剔除孤立点。如果一个类增长缓慢就去除它;对局部的类进行聚类,落在每个新形成的类中的代表点根据用户定义的一个收缩因子收缩或向类中心移动。这些点代表和捕捉到了类的形状。用相应的类标签来标记数据。2 CURE 聚类特点CURE,Clustering Using Representat原创 2020-09-17 08:54:43 · 5947 阅读 · 0 评论 -
六大常见的聚类算法总结
K-means(K均值)聚类算法步骤:(1) 首先我们选择一些类/组,并随机初始化它们各自的中心点。中心点是与每个数据点向量长度相同的位置。这需要我们提前预知类的数量(即中心点的数量)。(2) 计算每个数据点到中心点的距离,数据点距离哪个中心点最近就划分到哪一类中。(3) 计算每一类中中心点作为新的中心点。(4) 重复以上步骤,直到每一类中心在每次迭代后变化不大为止。也可以多次随机初始化中心点,然后选择运行结果最好的一个。下图演示了K-Means进行分类的过程:优点:速度快,计算简便缺点原创 2020-09-14 11:24:23 · 2135 阅读 · 0 评论 -
层次聚类(Hierarchical Clustering)——BIRCH算法详解及举例
1 BIRCH概述BIRCH(Balanced Iterative Reducing and Clustering Using Hierarchies)是一种针对大规模数据集的聚类算法,该算法中引入两个概念:聚类特征(Clustering Feature,CF)和聚类特征树(CF-tree),通过这两个概念对簇进行概括,利用各个簇之间的距离,采用层次方法的平衡迭代对数据集进行规约和聚类。2 聚类特征(CF)CF是BIRCH增量聚类算法的核心,使用CF概括描述各簇的信息,设某簇中有N个D维数据点{x→n原创 2020-09-16 17:57:21 · 5690 阅读 · 2 评论