机器学习-Sklearn(第三版)Day6 聚类算法K-means

本文介绍了无监督学习中的聚类算法,特别是Sklearn库中的KMeans算法。KMeans通过寻找质心将数据分为指定数量的簇,以达到聚类目的。聚类算法的目标是使簇内差异小,簇外差异大,KMeans通过最小化簇内误差平方和(Inertia)来优化聚类效果。KMeans的重要参数包括`n_clusters`,用于设置簇的数量。此外,KMeans在非结构化数据如图像的矢量量化中有着广泛应用,可以有效压缩数据量而不失信息。
摘要由CSDN通过智能技术生成

1 概述
1.1 无监督学习与聚类算法

在过去的五周之内,我们学习了决策树,随机森林,逻辑回归,他们虽然有着不同的功能,但却都属于“有监督学习”的一部分,即是说,模型在训练的时候,即需要特征矩阵X,也需要真实标签y。机器学习当中,还有相当一部分算法属于“无监督学习”,无监督的算法在训练的时候只需要特征矩阵X,不需要标签。我们曾经学过的PCA降维算法就是无监督学习中的一种,聚类算法,也是无监督学习的代表算法之一。

聚类算法又叫做“无监督分类”,其目的是将数据划分成有意义或有用的组(或簇)。这种划分可以基于我们的业务需求或建模需求来完成,也可以单纯地帮助我们探索数据的自然结构和分布。比如在商业中,如果我们手头有大量的当前和潜在客户的信息,我们可以使用聚类将客户划分为若干组,以便进一步分析和开展营销活动,最有名的客户价值判断模型RFM,就常常和聚类分析共同使用。再比如,聚类可以用于降维和矢量量化(vector quantization),可以将高维特征压缩到一列当中,常常用于图像,声音,视频等非结构化数据,可以大幅度压缩数据量。

聚类vs分类

在这里插入图片描述

聚类 分类
核心 将数据分成多个组 , 探索每个组的数据是否有联系 从已经分组的数据中去学习 ,把新数据放到已经分好的组中去
学习类型 无监督,无需标签进行训练 有监督,需要标签进行训练
典型算法 K-Means,DBSCAN,层次聚类,光谱聚类 决策树,贝叶斯,逻辑回归
算法输出 聚类结果是不确定的,不一定总是能够反映数据的真实分类,同样的聚类,根据不同的业务需求,可能是一个好结果,也可能是一个坏结果 分类结果是确定的,分类的优劣是客观的,不是根据业务或算法需求决定

1.2 sklearn中的聚类算法
聚类算法在sklearn中有两种表现形式,一种是类(和我们目前为止学过的分类算法以及数据预处理方法们都一样),需要实例化,训练并使用接口和属性来调用结果。另一种是函数(function),只需要输入特征矩阵和超参数,即可返回聚类的结果和各种指标。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值