大数据精准营销应用(三)

文章目录


前言

上一节我们实现了客户交易行为的分析,接下来进行客户体系标签计算


客户体系标签计算

事实类标签计算

交易次数和交易总额

        我们的标签是针对用户的,所以要提取标签。所以需要做到的是一行数据就是一个用户id的数据。

      新建user_features表,用于存放客户的标签,表的索引为user_id。每提取一个标签,就在user_features表中新增一列进行存放。再使用groupby()函数对data根据user_id进行分组,计算客户的交易次数和交易总金额,并将其结果分别存储到user_features表的total_transactions_cnt和total_transactions_amt列中。最后计算交易流水总额时需要将每笔交易金额取绝对值,再使用sum()方法进行求和。

转账次数和转账总额 

        接下来提取客户的转账类标签。使用关键字转账进行匹配,将客户有转帐行为的流水记录提取出来,针对转账记录我们再对其进行分析,计算客户的转账次数、转账总金额和转账平均金额。

      对某一列Series对象进行关键词匹配(即判断文本中有没有这个词),首先要将此列的文本数据转换为Pandas中的string类型( pandas .core.strings ),接着使用contains()函数带入关键词进行匹配。

      可以进一步操作:比如短时间内转账次数多且数额大,那存在异常,进行风险提示。也可根据转账次数划分客户

其它标签 

        消费行为是金额流出的过程,我们首先选取交易金额大于0的交易记录。但是在金额流出的行为中,"转账"、"提现"、"转入"、“还款"等行为并不属于消费,我们需要将其剔除。在此部分我们同样使用关键词匹配的方法对客户交易数据进行筛选,接着提取出客户的单次最大消费金额、消费订单比例等标签。

规则类标签的计算

在完成事实类标签后,我们开始提取规则类标签。规则类标签是在事实类标签的基础上,结合人工经验,对客户的某项指标进行的计算或归类,如定义高端消费需要人为规定阈值。在项目中,我们提取的规则类标签包括有无高端消费、是否休眠、RFM类等9个标签。

有无高端消费

      随着客户可支配收入水平的升高,客户的消费偏好会发生变化。对某些中、高档商品的购买和消费量会增加,对低档消费品的需求减少,因此在这里我们对是否有高端消费进行定义,作为客户的一个标签。

      之前已经计算了客户的最大消费金额,我们取所有最大消费金额的上四分位数作为阈值,如果客户的最大消费金额有大于该阈值,则将该客户定义为有高端消费,反之则无高端消费。

      从图中可以看出high_consumption这一列为是否高消费,即0为低消费,1为高消费。

是否休眠客户 

      精准营销的另一个目标是激活“休眠"客户。所谓“休眠"客户,是指那些已经了解企业和产品,却还在消费与不消费之间徘徊的客户。

      “休眠"客户对于企业的发展具有重大作用,调查显示“休眠"客户的消费能力是普通客户消费能力的3一5倍,甚至更高,而企业挖掘新客户的花费是“休眠"客户的8倍,所以唤醒休眠客户对企业开展精准营销具有重大意义。

      取出每个客户的交易记录,设定交易次数的下四分位数为阈值,交易次数total_transactions_cnt 小于阈值的客户则视为休眠客户(1) ,交易次数大于等于阈值的客户则视为活跃客户(O)。

       从图中可以看出,sleep_customers这一列为是否休眠客户,即都不是休眠客户。

RFM模型

      Recency计算:即距离观察点的时间差。

     预处理的过程中,将数据集的时间限定在2027附近。在RFM模型中,观察点的时间设为2027.1.1。那由此可以根据每笔交易时间计算最近天数。RFM模型的前提是提取只属于消费类的数据。之前已经计算过该数据:从data中选取金额流出的交易记录,在剔除转账、提现、还款、转入等记录即可


R/F/M的值的计算

上一步设定了日期的观察点,并计算了每笔交易距离观察点的距离天数。现在需要将交易记录根据客户进行分组,计算每个客户的RFM值。

RFM总得分

      上一步已经通过分组和聚合运算得到了每个客户RFM的具体值,根据这三个指标,又可以把客户分别进行四等分,得到不同指标的评分阶梯,根据阶梯计算客户RFM总得分。

      理论上来说,同等的资源投入的情况下,一名优质客户带来的回报将会是一般客户的5倍,可以推出,在资源有限的前提下,满足客户的顺序应该也是自上而下的。

 R分值越低越好,F,M分值越高越好,说明图中的RFM值都不错。

RFM可视化分析

前面的步骤中,已经计算好了recency 、 frequency . monetary 以及其对应的得分,并得到了单个客户的RFM总得分Total_score,得分取值范围为3-12。现在我们可以将它们进行一些组合,可视化分析其中的一些规律。将每个Total_score的取值作为一个类别进行分组,统计不同Total_score下RFM的取值分布情况。

      

从图中可以看出,随着Total_Score的增大,recency的平均值逐渐减小,这也印证了较优质的客户群体,最近一次消费普遍较近,随着Total_Score的增大,frequency、monetary的平均值逐渐增大,这也印证了越优质的客户群体,消费频率和消费金额普遍越高。

预测类标签的计算

one-hot编码

        在建立模型之前我们需要对已经提取的标签进行处理,对于有缺失的标签,我们需要进行填充。消费渠道consumption_channel列为离散型变量,我们统一将空值填充为othersPay ,代表其他消费渠道。其他为空值的列均为连续性变量,我们将这些空值填为0,代表客户不具有这部分的交易行为。缺失值的填充步骤为题目预先完成,接下来我们还要对标签做一些其他的处理,如字符型标签进行编码、连续性标签进行离散化等。标签处理完成后进行训练测试集划分,接着训练模型并通过模型预测客户价值等级。

      以上所做的操作只是为了更好的建立模型来预测客户价值等级,原始客户标签表user_features中的数据应当保留,不进行性何的数据处理。客户等级标签预测完成后,将其合并作为user_featunes表的最后一列。

      为了保持user_features中标签数据不变,我们在这里复制一份user_features,保存为表user_features_predict ,在建模过程中的操作均在user_features _predict表中.

连续性数值等频离散化

      对数据进行离散化时,若每个区间的间隔是相等的,称作等距离散化。另外─种叫做等频离散化,它是指每个区间的样本数相同。可以发现对于该数据集,连续型数值多呈长尾分布,若用等距离散化会在分布较少的区域会分出很多无意义的区间,在这里需要对连续型数值进行等频离散化。

 构建客户价值等级预测模型

训练测试集划分,使用score数据来进行测试集的划分。

 查看缺失值

发现含有缺失值,需要将其填充

划分训练集和测试集并查看大小

构建模型:

可以看出构建模型的准确度为98.36065,可以说准确率较高,模型比较优质。

客户价值等级分布 

上一步建立了逻辑回归模型,并在测试集上进行了检验,达到了98%的准确率,并将数据整体合并保存在user_features表中。接下来通过可视化的方式来观察一下客户价值等级的数量分布。

 客户标签间的相关性

对客户价值等级进行预测后,,现在分析一下各标签之间的关联程度,使用皮尔森相关系数来计算不同标签之间的相关性。皮尔森相关系数是用来反映两个变量线性相关程度的统计量,是一种线性相关系数,一般用r表示。r的取值在-1与+1之间。

      若r>0,表明两个变量是正相关,即一个变量的值越大,另一个变量的值也会越大。

      若r<0,表明两个变量是负相关,即一个变量的值越大另一个变量的值反而会越小。

      r的绝对值越大表明相关性越强。在标签数较多的情况下,选取其中明显的几个标签,计算其相关性并使用热力图表示:

交叉表

        在上一步中发现是否拥有高端消费( high_consumption )与客户价值等级(user_potential )之间的相关性较高。接下来来观察一下在有高端消费和无高端消费的人群中,不同客户价值等级的人数分布。

      对于这种多重分组计算个数的问题,我们通常使用交叉表来计算。交叉表是一种常用的分类汇总表格,用于频数分布统计。

从图中可以看出:清晰可见在无高端消费的人群中,高价值等级客户的占比较小;在有高端消费的人群中,高价值等级客户的占比更多;说明客户价值等级高的群体更倾向买贵的物品。

客户价值等级与月均消费频度可视化

 月均消费频度可视化

 

 通过结果我们可以看到不论客户等级,其月均消费频度都在[60,75]区间内占比较多。在月均消费频度较低的区间内,低价值客户占比相对较多;在月均消费频度较高的区间内,高价值客户占比逐渐提升,说明高价值客户偏向于有更多的消费需求。

文本类标签的计算

文本标签的提取方法

      在前面的步骤中,已经根据客户的交易记录建立了事实类标签,根据一些设定的规则建立了规则类标签,同时也建立模型预测了客户价值等级。接下来,我们要从每个客户的交易附言中提取文本标签。

      在之前已经进行了文本预处理,具体步骤如下:

      中文文本分词:将中文的句子切分成有意义的词语。

      去除停用词:根据事先设置好的停用词,规避掉一些特殊符号或者常用但无意义的词语。

交易附言合并

先找出交易附言

CountVectorizer词频矩阵计算

 采用CountVectorizer模型提取词频矩阵。首先我们在原有停用词的基础上再引入一些其他停用词,将有限公司、交易、转账、消费、余额、提现等词语归于停用词,以便计算出的词能更好的反映用户真实的消费特征。停用词已预先读入,保存在变量stop_words_list中。

 可以得到稀疏矩阵如上图所示

第0条,记录中索引为36的词在文本中出现1次,即词频为1

输出稀疏矩阵的关键词如下图所示:

 TfidfVectorizer词频矩阵计算

      接下来采用TfidfVectorizer模型提取词频矩阵。在TfidfVectorizer模型中,还是通过设置参数min_df . max_df来控制某个词最小/最大的出现次数,设置max_feates=100 代表最终输出的关键词为100个。和CountVectorizer模型类似,TfidfVectorizer模型也通过get_feature_names()查看所有文本的关键字,通过toarray()查看词频矩阵的结果。

 

将提取出来的文本标签的词频矩阵和features表合并

描绘用户画像 

在提取完了客户标签之后,我们来深入分析一下客户的行为特点。

      首先选取其中交易次数( total_transactions_cnt )最多的客户进行分析。

选出该典型客户后,可以通过绘制交易附言的词云图展示客户的大致画像。

绘制出来的词云图如下图所示:

      从词云图中可以看出,出现了很多交方式易的慈云,如支付宝、微信、现金,分期付款等,可以大致推断客户经常接触此类商品,可能从事银行金融方面的工作。

客户文本标签的分析

对该客户的交易流水进行可视化分析以后,我们可以对其进行文本特征的分析。在前面我们已经使用TfidfVectorizer模型提取了文本标签的tf-idf值,保存在了user_features表中。我们可以取出该客户文本标签的tf-idf值,将文本标签按tf-idf值由大到小进行排序,分析其行为特点。

      选取id为145的文本标签

接下来进行客户数值标签的分析:

从交易附言可以看出,支付宝和网银较多,推测出该用户大概率为银行员工。

总结

本节进行了各户标签体系的构建,下一节将进行精准营销的应用。

  • 1
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
运营商有什么数据 运营商大数据具备的全面性、多维性、中立性、完整性是其它企业很难比拟的,而丏通过这些丌同维度数据的交叉 关联,可以创造更多的新数据和新价值 身仹 上网 位置 社交 支出 通信 终端 时序 基于通信交往圈的大小,主被叫,时间序列,得到用户 的社交特征 运营商通过位置信息,可以掌握用户出行特征,给用户 带来生活的极大便利 基于用户访问什么网址,下载什么应用,访问什么内容 等,得到上网喜好 运营商丌仅宠户信息覆盖完整,还可以基于实际行为迚 行验证。通过身仹信息,帮劣金融机构快速判定用户的 信用程度 运营商有宠户最为详实的消费账单,比如流量费,短信 费、诧音费、新业务费等,能反映用户的一些特征 通过用户的通信使用情况,比如本地,漫游,长途,了 解用户通话行为特征 识别记彔手机终端型号,了解用户手机使用特征,发展 趋势,用户换机周期等 通过用户上网,位置,通话等行为按照时间排列,了解 更多规律提供更多服务 运营商数据不传统BAT数据相比优势 数据局部性 数据封闭性 数据割裂性 数据全面性 互联网公司的数据是相互割裂的,淘宝只 有淘宝的售卖数据,没有百度搜索的数据 很少有互联网公司愿意开放自己的数据, 开放更多的是商业模式层面和应用层面。 互联网的数据整合困难,同时注册的个人 账号也是短期的,丌稳定的。 互联网公司的数据受限于自身的业务,其 数据的范围和深度都是有限的。 BAT数据受限于本身的数据基因 运营商的数据也许更有代表性和竞争力 运营商是数据管道,仸何个人、企业的上网 和通话的行为都流淌在运营商的管道里,幵丏仸 何时候你的位置都需要上报给运营商的基站以便 能够随时沟通,移劢互联网越发展,运营商的数 据规模优势就越大。 运营商以号码为唯一的ID来整合各类数据 ,因此刻画宠户的完整性是一般企业难以企及的 ,因为号码就是业务本身,而丏还有终端ID作为 移劢通信网天生的业务属性而存在。 运营商数据解决移劢互联网时代最为关注 的个问题?我是谁,我在哪里,我在干什么 ,这是很多企业的数据难以比拟的。运营商承担 着相当大的社会责仸,丌会看到互联网公司会有 分享数据的行为,数据基本是在它的体内循环。 联通大数据平台数据丰富 运营商所独有的数据来自于类: 业务支撑系统的数据 (基于服务产生的数据) 电信运营商自有运营内容产品(包括SP、互联网产品等基于用内容的数据) 网绚系统产生的数据(基于管道产生的数据) 客户基本资料 用户消费信息 用户终端信息 业务基地用户画像 用户互联网行为 用户状态信息 用户储值信息 用户通信行为 网厅手厅用户画像 用户位置信息 用户订购信息 用户信用信息 用户分群信息 注: 联通业务基地包括沃易购、沃商店、沃阅读、沃音乐、沃视频等 业务支撑系统 自营内容产品 网绚管道数据 图例: 月频次数据 日频次数据 实时频次数据 姓名 性别 宠户类型 电话号码 证件号码 地域 年龄 住址 …… 诧音 短信 通话类型 通话时间 流量 通话地点 通话时长 对端号码 …… 初始信用度 劢态信用度 欠费额度 欠费频次 欠费账龄 …… 号码状态 欠费状态 年龄业务开通状态 …… 手机号码 终端型号 IMEI 终端厂商 IMSI …… 消费金额 流量费 月租费 短信费 通信费 …… 订购产品 开通渠道 流量包 发展员工 合约计划 …… 缴费渠道 缴费时间 缴费金额 …… 集宠分群 宠户分群 VIP分群 …… 号码 使用内容 IMEI 访问IP 业务基地 …… 号码 访问类型 IMEI 访问IP 访问位置 …… 上网类型 网站/APP 上网时间 访问内容 上网地点 …… 号码 CellID IMSI LAC 时间 …… 联通大数据运营成果丰富 提供全国4亿用户,GPS级实时位置数据 涵盖9大类,共计3700余个用户标签 轻松识别4亿URL,6.5万个互联网产品,12000+余款APP 成功识别约3600个手机品牌、8.2万个终端型号 日处理4200亿条上网记彔信息,170亿条话单 数据采集集团和省分B域系统约1250个接口;信令类数据31省约28个接口 3500台Hadoop集群,55PB存储能力,形成国内除BAT外最大的云架构大数据平台,沉淀了最 海量的数据 对内支撑 精细管理、存量维系、精准营销、网绚网优等;对外跨行业合作 涉及 政府、旅游、金融、交通、互联网、媒体等行业,以集成、报告、接口 等方式对外提供服务 固话用户7952万 宽带用户7169万 移劢用户2.93亿 庞大的用户资源 丰富的大数据产出 联通大数据平台优势 数据一点集中 不31省及集中系统迚行数据的一点采集、一点处理、一点服务 均采集生产系统原始数据,可以保障数据具备实时性、真实性和完整性 一点集中,有利于后续系统一体化部署和活劢集中开展 信息价值高 信息
大数据精准营销 作者:暂无 来源:《东方企业家》 2014年第5期 大数据正成为市场准入的一个门槛,像BAT、Google、苹果、脸书为什么势不可当?就是数据带来的震撼效果。 文/陈宇新 麦肯锡给大数据的定义是:大数据是指无法在一定时间内用传统数据库软件工具对其内容进行抓取、管理和处理的数据集合。 IDC 这样描述大数据大数据技术是新一代的技术与架构,它被设计用于在成本可承受的条件下,通过非常快速(velocity) 的采集、发现和分析,从大体量(volumes)、多类别(variety) 的数据中提取价值。 IDC 的定义描述了大数据时代的大特征,即俗称的"3V"。Volume( 海量),数据容量越来越大;Velocity( 速度),数据量增长越来越快,需要处理的速度和响应越来越快;Variety( 多样性),指各种各样类型的数据出现,过去的数据更多的是结构化的,现在越来越多的数据是半结构,甚至是完全没有结构的数据。"3V"是对大数据最基本特征的归纳,得到业界的共识。 谈到电商和精准营销,中欧商业评论提出一个新概念"大数据微时代",认为一方面数据越来越多,另一方面正因为数据多,所以我们可以看到各个体系的细节,使互联网和大数据对个体顾客测量优化和营销传播变成可能,这样便可以用大数据精准营销。 汽车行业正是大数据微时代淘金梦想之地。原因很多,车联网可以聚集数据,另外汽车的潜在消费者多为社会中产阶级以上,这批人也是电商理想目标人群,因为他们的收入已经达到非常高的水平,这些数据如果能够结合,商业前景将十分可观。 大数据微时代营销有哪些特点? 1. 依据顾客行为而非想法的营销决策模式。传统营销需要做调查,大数据时代不需要问,通过消费者的搜索行为,他们想购买什么、想搜什么,就反馈出来他们的偏好。使我们可以大规模个性化做精准营销。 2. 个性化、告别抽样,大数据手段每个人都有个体性。 3. 连续性,互联网时代技术可以实现连续收集数据。 4. 实时性,登录电商网站实时获取消费者信息,实时推介。 5. 互动性。精准推送互动。 6. 可测性,顾客很多方面都可以做到可测性。 大数据精准营销全文共2页,当前为第1页。 7. 可试验性,传统推送广告更多是判断,大数据时代不需要做判断,可以试验,给一些客户推送广告信息,如果反应不好可以换一批信息,这样就可以快速做试验,通过试验得到优化的结果。 大数据精准营销全文共2页,当前为第1页。 8. 数据积累的正反馈效应。做得越精准消费者越多,数据就越准确,大数据成为市场准入的一个门槛,BAT、Google、苹果、脸书势不可当就是数据带来的震撼效果,以前所谓做大不一定做强,在数据时代做强和做大变成正相关关系,这是战略趋势,BAT 大量并购目的就是为了做大,让数据来源就更广泛、数据更精度,可以变得更强。 精准营销的前景非常好,但是丰满的理想和骨感的现实还有问题存在,大数据营销应用的现状是:1. 说的比投的多。2. 投的比做的多。3. 做的比懂的多,取得很多数据、有很多数据报告,却不能理解数据背后到底给什么信息。4. 懂的得比赚的多,懂很多,但是目前刚刚起步,收入不多。5. 今后我们赚的比现在想的多。大数据外溢性非常强,一个数据可能是从汽车搜起,但是会用到电商,还可能会搜到保险、医疗等,一旦数据被取得,它的应用方价值往往超出我们想象,无限的商机在背后。 前景很光明,那么这种光明的前景如何才能实现呢?如何成功实现机遇大数据精准营销? 首先要养成大数据的思维方式,思考方式、管理问题的方式、管理创新的方式都用大数据思维方式。现在我们进入到在互联网时代要用互联网思维,互联网思维是从外到内的思维方式,不是我们需要什么?而是了解顾客需要什么?不是我们能开发什么东西?而是我们能整合哪些资源?我想用技术,但是不一定要拥有这个技术,可以从网上、从合作伙伴得到这样的技术开发这样的产品,互 网思维更多从外到内的思考,更多外界的环境资源怎么样有效整合资源、怎么有效地调动消费者使我们产品卖出去。 还应该注意目前大数据应用当中也有潜在的问题,不是数据越多越好,不是有了数据一定能赚钱、产生商业价值,我要讲大数据精准营销大陷阱:有数不一定有据,看中文解释,数和据解释不一样,问题根源数据代表性和潜在的样本误差,很多时候数据虽然大,但是我们看到还是有误差;大而不全的问题。 往往我们收集数据的时候,自己数据收集非常多,但是竞争对手数据非常少;内生变量模糊因果关系,我们大数据介入消费者购买过程当中,对消费者真实偏好和评价测量变得越来越困难,大数据用得越多,大数据价值某种变得越来越小。测量本人干扰数据的真实度,使数据变得更小。 大数据赢家至少具备以下资源优势其中之一:产品优势,或者产品大家喜欢,或者你对客户了解特别了解,还有数据来源特别多,还

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值