《数据挖掘与数据化运营实战》(第9章)

本文详细介绍了聚类分析在目标用户群体分类、产品组合和异常值探测等方面的应用,以及主要的聚类算法,如K-Means、K-Medoids、层次方法、基于密度和网格的方法。在实践中,要注意数据噪声和异常值的处理、数据标准化以及选择关键变量。聚类分析可与非聚类业务指标结合,用于数据探索、清理和个性推荐,但也存在需要预设K值、对噪声敏感等缺点。评价指标包括RMSSTD、R-Square和SPR。
摘要由CSDN通过智能技术生成

在这里插入图片描述

9 聚类分析的典型应用和技术小窍门

9.1 聚类分析的典型应用场景

  • 目标用户群体分类
  • 不同产品的价值组合
  • 探测、发现孤立点、异常值。孤立点就是指相对于整体数据对象而言的少数数据对象,这些对象的行为特征与整体的数据行为特征很不一致,虽然在一般的数据处理过程中,会把孤立点作为噪声数据清理出去,但是在很多业务数据领域,孤立点的价值也很重要

9.2 主要聚类算法的分类

9.2.1 划分方法

给定具有n个对象的数据集,采用划分方法对数据集进行k个划分,每个划分代表一个簇,k<=n,并且每个划分至少包含一个对象,划分方法一般要做一个初始划分,然后采用迭代重新定位技术,通过让对象在不同组间的移动来改进划分的准确度和精度,一个好的划分原则是,同一个簇中对象之间的相似性很高,不同簇之间对象的相异性很高。

目前主流的划分方法如下:

  • K-Means算法,又叫K均值算法,在给定一个数据集合需要划分的数目k后,该算法可以根据数据划分到k个簇中,直到收敛为止,K-Means算法用的是簇中对象的平均值来划分,大致步骤就是,首先从随机抽取的k个数据点作为初始的聚类中心(种子中心),然后计算每个数据点到每个种子中心的距离,并把每个数据点分配到距离它最近的种子中心,一旦所有的数据点都被分配完成,每个聚类的聚类中心(种子中心)按照本聚类的现有数据点进行重新计算,不断重复,直到收敛,既满足某个终止条件,最常见的终止条件就是误差平方和(SSE)局部最小。
  • K-Medoids算法,又叫K中心点算法,该算法用最接近簇中心的一个对象表示划分的每个簇,划分过程相似,与K-Means算法最大的不同在于,K-Medoids算法是用簇中最接近中心点的一个真实数据对象来代表簇,而K-Means算法
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值