航空客运信息挖掘

这篇博客介绍了航空客运信息挖掘在泰迪杯数据挖掘竞赛中的应用,探讨了如何通过数据挖掘技术提升航空公司的上座率。博主分析了客户流失预测、客户细分和客户价值评估,提出了LRFMC模型、主成分分析和多种RFM模型。通过聚类、主成分分析和流失预测模型,识别出重要保持客户、重要发展客户、重要挽留客户等群体,以制定针对性的营销策略。
摘要由CSDN通过智能技术生成

航空客运信息挖掘

这个是泰迪杯数据挖掘第一届竞赛中的赛题,博主在此是将官网上的优秀论文进行了部分摘抄并做了一个总结。
官网地址http://www.tipdm.org/bdrace/tzjingsai/

题目:很多人都听说过马来西亚的亚洲航空、美国的西南航空等公司的大名。这些公司成功的秘诀就是擅于提高上座率。本例就是期望从航空公司感兴趣的主题,例如流失预测、客户细分和客户价值评估等方面,通过数据挖掘技术,实现提升航空客运的上座率目标。
附件数据集来自国内某航空公司的会员数据,共有62988个样本,每个样本有63个属性,各属性说明见“变量含义”Sheet页。除了每个客户的基本资料外,该数据集还包含了一个观测窗(2年)内8个季度的用户飞行数据,包括乘机次数、里程、积分等。参赛者可尽量使用任何的数据挖掘技术来发现尽可能多的知识,建议的数据挖掘主题包括但不限于建立客户流失模型、客户细分和客户价值评估。

思路一
首先划分出训练集和测试集,在训练集上建立用户细分、用户价值评估和流失预测模型,区分客户群,并提出相应的营销策略。最后用测试集来检验,对模型的性质的评估。
用户细分模型:筛选出 5 个 L、R、F、M、C 五个指标(根据文献的来,后文会有解释)作为航空公司客户细分的核心维度,利用 LRFMC 聚类分析法进行用户分群与初步评分。接着利用权重计算各客户群综合得分,从而将航空公司的客户群体划分成重要保持客户、重要发展客户、重要挽留客户、忠诚型一般客户、低价值客户等五个级别的客户群。
用户价值评估模型:对 5 个客户群的数据进行预处理,选择对客户价值影响最大的 14 个属性,进行主成分分析,计算出各用户群的综合得分,作为价值排名依据。
客户流失模型:定义了客户回头率这个概念(客户第二年乘机次数与第一年乘机次数比值),以 0.5 和 0.8 为两个临界值将老客户划分为流失客户、准流失客户、未流失客户三种客户类型,并选取一些维度及其衍生出的维度,使用决策树、神经网络两种方法进行客户流失模型的建立,并用将两种方法进行对比,最终确定了影响客户流失的几个比较重要因素有平均折扣率、单位里程票价和单位里程所得积分。

思路一的补充

  • LRFMC模型:先根据LRFMC的定义得到相应的5个指标,再进行k-means聚类。但是客户分类后,并不知道划分出的每一组客户的价值差别有多大,相对航空公司的重要性怎样。所以利用 AHP 法分析得到的 LRFMC 各指标权重,结合各组客户的 LRFMC 指标值,可以计算每一组客户的客户价值,然后根据客户价值的得分来进行排序。
  • 上一个模型存在一个问题:k-means聚类结果得出的客户标签可能和经过AHP法的权重调整而得出的结果相矛盾。这时,就需要人工分析产生矛盾的原因,人为地给他划分类别。
  • 除了LRFMC属性以外,还运用了会员卡级别(FFP_TIER)、观测窗口总基本积分(BASE_POINTS_SUM)、总票价(EXPENSE_SUM)、观测窗口总加权飞行公里数(Σ舱位折扣×航段距离)(WEIGHTED_SEG_KM)、平均乘机时间间隔(AVG_FLIGHT_INTERVAL)、观察窗口内最大乘机
    间 隔 ( MAX_FLIGHT_INTERVAL )、 观 测 窗 口 中 其 他 积 分 ( 合 作 伙 伴 、 促 销 、 外 航 转 入 等 )( ADD_POINTS_SUM )、 非 乘 机 积 分 总 和 ( Eli_Add_Point_Sum )、 非 乘 机 的 积 分 变 动 次 数
    (Point_Chg_NotFlight)等一共14个属性。
  • 通过对14个属性计算相关系数矩阵,发现多个变量之间的相关系数值很大,所以属性之间一定有重叠的部分,所以要进行降维。通过主成分分析
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值