文本聚类算法之一趟聚类(One-pass Cluster)算法的python实现

本文介绍了蒋盛益教授提出的高效无监督聚类算法——一趟聚类,并详细阐述了其算法流程。该算法适用于超球状分布数据,通过遍历数据集一次完成聚类。文中给出了使用Python实现此算法的代码,并使用中国天气数据集进行实验,展示了算法的应用。
摘要由CSDN通过智能技术生成

一、算法简介

一趟聚类算法是由蒋盛益教授提出的无监督聚类算法,该算法具有高效、简单的特点。数据集只需要遍历一遍即可完成聚类。算法对超球状分布的数据有良好的识别,对凸型数据分布识别较差。一趟聚类可以在大规模数据,或者二次聚类中,或者聚类与其他算法结合的情况下,发挥其高效、简单的特点;

 

算法流程:

1. 初始时从数据集读入一个新的对象

2. 以这个对象构建一个新的簇

3. 若达到数据集末尾,则转6,否则读入一个新的对象;计算它与每个已有簇之间的距离,并选择与它距离最小的簇。

4. 若最小距离超过给定的阈值r,转2

5. 否则将对象并入该簇,并更新簇心,转3

6. 结束

 

在本算法中,采用的是欧式距离公式计算节点与簇心之间的距离

欧式距离公式:



二、实验

实验数据集:

中国天气的数据集,包括中国各个城市每年的最低和最高温以及该城市的x,y坐标。

  • 7
    点赞
  • 28
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值