【ML 吴恩达】11 聚类Clustering的概念、应用和算法简介

本文介绍了聚类的概念,即把数据集中样本划分为不相交子集(簇)。阐述了聚类在出版社、医疗、生物等多领域的应用,说明了选择聚类方法的几种情况,如探索性数据分析、离群值检测等,还介绍了基于分区、层次、密度的聚类算法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1 简介

聚类Clustering : 将数据集中的样本划分为若干个通常不相交的子集,每个子集称为簇(cluster)。
簇cluster:A group of objects that are similar to other objects in the cluster ,and dissimilar to data points in other clusters
一组与集群中其他对象相似,但与其他集群中的数据点不同的对象称为簇
在这里插入图片描述

2 聚类应用

(1)出版社
• 自动分类新闻内容
• 建议类似的文章
(2)医疗
• 表征病人的行为
(3)生物
• 聚类遗传标记以识别家庭纽带
(4)零售\市场
• 识别顾客购买的方式
• 推荐新书和新电影给顾客
(5)银行
• 支票的检测
• 识别用户群
(6)保险
• 索赔分析中的欺诈检测
• 顾客的投保风险

3 选择聚类方法的情况

(1)探索性数据分析
(2)总结概要
(3)离群值检测(outlier detection)
(4)查重
(5)预处理步骤

4 聚类算法

(1)基于分区的聚类
• 相关高效,用于中等或者大型数据集
• K-means 、K-Median 、Fuzzy c-Means
在这里插入图片描述

(2)层次聚类
• 产生树的聚类
• 凝聚算法(Agglomerative algorithm)分割算法(Divison algorithm)
在这里插入图片描述

(3)基于密度的聚类算法
• 产生任意形状的簇
• DB scan算法

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Better Bench

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值