聚类分析的典型应用和技术

本文详细介绍了聚类分析在数据化运营中的应用,如目标用户分类和异常值检测,并探讨了主要的聚类算法,包括K-Means、K-Medoids、层次方法和基于密度与网格的方法。同时,提到了聚类分析中的注意事项,如数据噪声处理、数据标准化和变量选择,以及聚类分析的优势和局限性。最后,讨论了聚类结果的评价指标和业务价值。
摘要由CSDN通过智能技术生成

1.聚类技术,一方面本身就是一种模型技术,另一方面,聚类技术又常常作为数据分析过程中,前期进行数据摸底和数据清洗、数据整理的工具
2.聚类分析技术在数据化运营实践中常见的业务应用场景:目标用户的群体分类、不同产品的价值组合、探测、发现孤立点、异常值
孤立点就是指相对于整体数据对象而言的少数数据对象,这些对象的行为特征与整体的数据行为特征很不一致,虽然在一般的数据处理过程中,会把孤立点作为噪声数据清理出去,但是在很多业务数据领域,孤立点的价值也很重要
3.主要的聚类算法分类
A.划分方法, 给定具有N个对象的数据集,采用划分方法对数据集进行k个划分,每个划分代表一个簇,k<=n,并且每个划分至少包含一个对象,划分方法一般要做一个初始划分,然后采用迭代重新定位技术,通过让对象在不同组间的移动来改进划分的准确度和精度,一个好的划分原则是,同一个簇中对象之间的相似性很高,不同簇之间对象的相异性很高
K-Means算法,又叫K均值算法,在给定一个数据集合需要划分的数目k后,该算法可以根据数据划分到k个簇中,直到收敛为止,K-Means算法用的是簇中对象的平均值来划分,大致步骤就是,首先从随机抽取的k个数据点作为初始的聚类中心(种子中心),然后计算每个数据点到每个种子中心的距离,并把每个数据点分配到距离它最近的种子中心,一旦所有的数据点都被分配完成,每个聚类的聚类中心(种子中心)按照本聚类的现有数据点进行重新计算,不断重复,直到收敛,既满足某个终止条件,最常见的终止条件就是误差平方和(SSE)局部最小

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值