利用R语言中的KMEANS算法对业务中各类客户进行分析
第一步,数据导入
setwd("C:\\Users\\admin\\Desktop\\R_sv")
datafile=read.csv("air_data.csv",header = T)
导入之后我们先通过summary函数来查看一下各变量的统计量。
发现其中部分数据存在缺失值,那么我们首先对缺失值进行处理。
第二步,数据清洗
缺失值的处理,去掉所有第一年和第二年票价为缺失值的所有行
delet_na<-datafile[-which(is.na(datafile$SUM_YR_1)| is.na(datafile$SUM_YR_2)),]
index<-(delet_na$SUM_YR_1==0&delet_na$SUM_YR_2==0)*(delet_na$avg_discount!=0)
#返回0或者1
deletdata<-delet_na[-which(index==1),]
处理掉无价值客户的数据(票价为0,折扣不为0)
这里需要对我们要分析的数据属性做一个归类。样本数据来自某家航空公司,我们需要分析哪些客户需要保留,哪些值得开发,等等。
因此我们通过业务方面分析,从第一张图中属性选出以下五种:
L:入会时长
R:飞行次数