【计算智能】K-means聚类算法的初步学习与认识

最新推荐文章于 2019-09-15 17:25:59 发布

-shiba-

最新推荐文章于 2019-09-15 17:25:59 发布

阅读量315

点赞数

本文链接：https://blog.csdn.net/weixin_44525231/article/details/100682061

版权

本文介绍了K-means聚类算法的基本原理，它是一种无监督学习的硬聚类算法，旨在找到数据集中紧凑且独立的簇。算法过程包括初始化聚类中心和迭代优化。K-means的优势在于其快速、简单且适用于大规模数据集，但K值的选择和初始化划分是其主要挑战。同时，文章还提及了算法的时间复杂度以及提供了MATLAB实现的概述。

摘要由CSDN通过智能技术生成

1. K-means算法

K-means是硬聚类算法，是典型的基于原型的目标函数聚类方法的代表。该算法认为簇是由距离靠近的对象组成的，因此把得到紧凑且独立的簇作为最终目标。它是数据点到原型的某种距离作为优化的目标函数，利用函数求极值的方法得到迭代运算的调整规则。

K-means是无监督学习算法（unsupervised
learning），即将不需要使用训练数据进行学习，只通过计算相似度就可以把相似的东西聚到一起作为工作原理。

假设我们提取到原始数据的集合为(x1, x2, …, xn)，并且每个xi为d维的向量，K-means聚类的目的就是，在给定分类组数k（k
≤ n）值的条件下，将原始数据分成k类 S = {S1, S2, …, Sk}，在数值模型上，即对以下表达式求最小值：

2. 算法过程/伪代码

1)从N个文档随机选取K个文档作为质心

2)对剩余的每个文档测量其到每个质心的距离，并把它归到最近的质心的类

3)重新计算已经得到的各个类的质心

4)迭代2~3步直至新的质心与原质心相等或小于指定阈值，算法结束

3.优缺点

优点

1)算法快速、简单; 2)对大数据集有较高的效率并且是可伸缩性的;
3)时间复杂度近于线性，而且适合挖掘大规模数据集。K-Means聚类算法的时间复杂度是O(nkt)
,其中n代表数据集中对象的数量，t代表着算法迭代的次数，k代表着簇的数目。

缺点

1)在 K-means 算法中 K 是事先给定的，这个 K 值的选定是非常难以估计的 2)在 K-means
算法中，首先需要根据初始聚类中心来确定一个初始划分，然后对初始划分进行优化。
3)时间复杂度近于线性，而且适合挖掘大规模数据集。K-Means聚类算法的时间复杂度是O(nkt)
,其中n代表数据集中对象的数量，t代表着算法迭代的次数，k代表着簇的数目。

4.matlab实现

代码块：

clear all;close all;clc;
% 第一组数据
mu1=[0 0 ];  %均值
S1=[.1 0 ;0 .1];  %协方差
data1=mvnrnd(mu1,S1,100);   %产生高斯分布数据
%第二组数据
mu2=[1.25 1.25 ];
S2=[.1 0 ;0 .1];
data2=mvnrnd(mu2,S2,100);
% 第三组数据
mu3=[-1.25 1.25 ];
S3=[.1 0 ;0 .1];
data3=mvnrnd(mu3,S3,100);
% 显示数据
plot(data1(:,1),data1(:,2),'b+');
hold on;
plot(data2(:,1),data2(:,2),'r+');
plot(data3(:,1),data3(:,2),'g+');
grid on;
%  三类数据合成一个不带标号的数据类
data=[data1;data2;data3]; 
N=3;%设置聚类数目
[m,n]=size(data);
pattern=zeros(m,n+1);
center=zeros(N,n);%初始化聚类中心
pattern(:,1:n)=data(:,:);
for x=1:N
    center(x,:)=data( randi(300,1),:);%第一次随机产生聚类中心
end
while 1
distence=zeros(1,N);
num=zeros(1,N);
new_center=zeros(N,n);
 
for x=1:m
    for y=1:N
    distence(y)=norm(data(x,:)-center(y,:));%计算到每个类的距离
    end
    [~, temp]=min(distence);%求最小的距离
    pattern(x,n+1)=temp;         
end
k=0;
for y=1:N
    for x=1:m
        if pattern(x,n+1)==y
           new_center(y,:)=new_center(y,:)+pattern(x,1:n);
           num(y)=num(y)+1;
        end
    end
    new_center(y,:)=new_center(y,:)/num(y);
    if norm(new_center(y,:)-center(y,:))<0.1
        k=k+1;
    end
end
if k==N
     break;
else
     center=new_center;
end
end
[m, n]=size(pattern);
 
%最后显示聚类后的数据
figure;
hold on;
for i=1:m
    if pattern(i,n)==1 
         plot(pattern(i,1),pattern(i,2),'r*');
         plot(center(1,1),center(1,2),'ko');
    elseif pattern(i,n)==2
         plot(pattern(i,1),pattern(i,2),'g*');
         plot(center(2,1),center(2,2),'ko');
    elseif pattern(i,n)==3
         plot(pattern(i,1),pattern(i,2),'b*');
         plot(center(3,1),center(3,2),'ko');
    elseif pattern(i,n)==4
         plot(pattern(i,1),pattern(i,2),'y*');
         plot(center(4,1),center(4,2),'ko');
    else
         plot(pattern(i,1),pattern(i,2),'m*');
         plot(center(4,1),center(4,2),'ko');
    end
end
grid on;

实现图：

-shiba-

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
【计算智能】K-means聚类算法的初步学习与认识

K-means聚类算法及其MATLAB实现K-means算法K-means是硬聚类算法，是典型的基于原型的目标函数聚类方法的代表，它是数据点到原型的某种距离作为优化的目标函数，利用函数求极值的方法得到迭代运算的调整规则。K是类别数，Means表示均值，K一般由人工来指定，或通过层次聚类(Hierarchical Clustering)的方法获得数据的类别数量作为选择K值的参考...
复制链接

扫一扫